|

Consultas développe Extract pour un nouveau système de traitement des annonces
Les petits annonces, selon Didier Durand, directeur R&D de Consultas, sont encore trop souvent traitées comme une suite de caractères sans signification que l’on insère sur un support. Pourtant, la compréhension du contenu permettrait la mise en place d'une multitude d'applications comme l'analyse statistique du marché des annonces ou encore la diffusion de ces annonces par profil sur des supports personnalisés (mobile, télévision, …).
De plus, lors de l'insertion d'une annonce, l'indexation (permettant la connaissance et les recherches structurées) est réalisée grâce à un processus qui nécessite souvent un effort manuel non négligeable.
Le remplissage ou la vérification des structures de type marque, modèle, ville, etc. se fait par le biais d'un opérateur empêchant souvent son application à 100% des annonces. La possibilité de faire ce travail de manière automatique offre donc une opportunité d'évolution et de rationalisation intéressante.
Développé par Consultas, Extract, un projet de web service SOAP-XML, en est une des pierres angulaires de nouveaux systèmes de traitement où le contenu peut être réutilisé pour développer des prestations à valeur ajoutée très innovantes à travers les informations qu’il contient.
Architecture :
Le cœur d'Extract (fig 1) est implémenté avec des techniques de traitement du langage naturel éprouvées (Analyse Lexicale, Analyse Syntaxique, Analyse Sémantique) mais comporte aussi des notions plus vastes (Ontologie, Analyseur contextuel).
Il reçoit en entrée un texte libre (i.e. sans format imposé) encapsulé dans une structure XML, reconnaît les différentes entités pertinentes et les retourne sous la forme d'une structure logique XML.Le système est centralisé, permettant ainsi une mise à jour permanente des connaissances, une mutualisation des ressources acquises par tous ses utilisateurs et des coûts plus directement liés à l'utilisation réelle.
Extract, c’est aussi une collection de services Web (accessible à travers Internet) répondant chacun à la norme SOAP. Toute transaction avec (et dans) le système est encapsulée dans une structure logique XML. Ces services (fig. 2) sont séparés en deux catégories :
Les services directement liés à la technologie :
1. BaseXtract : Service de base qui renvoie les informations pertinentes contenues dans l’annonce sous forme d’une structure logique XML (ex. : pour une voiture, le système retourne la marque, le modèle, le kilométrage, l’année de mise en circulation, etc dans le cas où ces informations apparaissent dans le texte).
2. NormXtract : Service identique à BaseXtract où les valeurs retournées sont normalisées.( ex. harley ou Harley devient toujours Harley-Davidson pour simplifier les traitements ultérieurs en éliminant les variantes orthographiques).
3. NormXtract+ : Service identique à NormXtract où certaines informations n’apparaissent pas dans le texte sont ajoutées au résultats final. (ex. : “ Lausanne ” comme ville dans le texte induira “ Suisse ” comme pays)
4. ControlXtract : Service de contrôle qualité (prévention sur les erreurs et /ou omissions d’informations, correction orthographique). (ex. Alerte sur oubli du moyen de contact : téléphone, adresse,…).
5. FilterXtract. Service de filtrage d’annonce (prévention sur les annonces indésirables).
6. TransXtract : Service de traduction d’annonce (traduction des informations puis régénération d’un nouvelle annonce identique en matière de contenu).
Tous ces services existent suivant deux modes :
a. Mode Client Standard : envoie de l’annonce par le client puis retour des informations par le serveur.
b. Mode Coopération : Mode Client Standard avec retour des erreurs par le client (service de validation).
Les services indirects basés sur les technologies citées précédemment :
1. Service de personnalisation de la présentation des annonces. Le système génère automatiquement une présentation à partir du XML (ex. : tri selon marque /modèle pour une série d’annonces automobiles).
2. Service de mise en contact des personnes sur un même objet (Offre et Demande).
3. Service d’aide à l’acquisition d’annonces (service utilisant ControlXtract) (ex. : proposition d’une fourchette de prix pour la vente d’un type de voiture).
4. Service d’indexation de sites Web (hébergement, indexation et mise en page des annonces).
5. Service d’analyse des données en vue de statistiques du marché des petits annonces pouvant ainsi enrichir la qualité du conseil des forces de vente ou des sites Internet d’acquisition.
Démonstration en ligne (http://extract-demo.consultas.ch)
Article publié par Gabriel-Antoine Brouze de Consultas et reproduit dans i-news avec permission.

_________________________
Le principe i-news
Destiné aux professionnels des technologies de l’information de Suisse romande, aux utilisateurs de ces technologies ainsi qu’aux décideurs des entreprises, i-news est la source d’information qui leur permet de se tenir à jour avec les prévisions et les tendances du marché IT, les changements concurrentiels, les mises à jour technologiques, les principaux événements et autres actualités.
i-news aide à gagner du temps en rassemblant les informations locales les plus récentes et pertinentes provenant des sociétés avant-gardistes qui forment le marché IT, ainsi que des hautes écoles, des associations et des groupements professionnels.
Constamment en contact avec les utilisateurs et les experts techniques, ses rédacteurs spécialisés traquent les dernières nouvelles et publient les informations autorisées.
i-news est une gazette totalement interactive permettant à tout intéressé de soumettre; du rédactionnel, des annonces, de participer à des forums...
Le résultat de ce processus est cependant contrôlé et validé par le comité de rédaction avant publication.
----------- Retour -----------
Plan media
Les sujets qui seront abordés, en dehors des informations quotidiennes,
en 2004,dans les périodes qui suivent:
| janvier | téléphonie / Java |
| février | EAI / RAD développement |
| mars | les salons |
| avril | la formation |
| mai | télécoms |
| juin | vacances / web / télé-services |
| juillet | développement offshore |
| août | informatique et ROI |
| septembre | les solutions packages |
| octobre | sécurité / qualité |
| novembre | administrations publiques |
| décembre | emploi |
Les tarifs pour la publicité et les articles rédactionnels "orienté":
| bandeau publicitaire dim. 600 x 75 pxls | prix en FRS HT |
| en première page durant 2 semaines | 500.-- |
| en première page durant 1 semaine | 300.-- |
| en première page durant 3 jours | 200.-- |
| sur l'ensemble d'une rubrique durant 1 semaine | 400.-- |
| sur l'ensemble d'une rubrique durant 3 jours | 200.-- |
| publication aléatoire par rubrique durant 1 année | 1000.-- |
| publication aléatoire par rubrique durant 6 mois | 600.-- |
"sponsoring" publication aléatoire sur l'ensemble des rubriques
durant 1 année | 1200.-- |
| publication aléatoire par rubrique durant 3 mois | 400.-- |
| en relation avec article rédactionnel sur période de 1 mois | 300.-- |
 |  |
article rédactionnel orienté (présentation société / produit...)
avec bandeau publicitaire sur une période de 1 mois | 500.-- |
 |  |
| article rédactionnel, non orienté, sans pub | gratuit |
 |  |
----------- Retour ----------- |
|