Sujet de stage :

 Développement de grammaires d’extractions de descriptions temporelles.

 

Résumé du travail proposé :

L'objectif de ce stage est de développer une grammaire d’extraction de marqueurs temporels dans le domaine du tourisme. La plupart des informations contenues dans une base de données touristiques (événements, manifestations, hôtels, restaurants, musées…) contiennent des marqueurs temporels (date, durée, horaires d’ouvertures, conditions d’ouvertures ou de tarifs…) qu’il s’agira d’identifier au moyen d’une grammaire adaptée.

A partir de données réelles, vous aurez à développer une grammaire locale de reconnaissance de ces marqueurs, en utilisant les outils Unitex (http://www-igm.univ-mlv.fr/~unitex/) et GramLab (http://www.gramlab.org/fr/).

Mots clés :

Traitement automatique des langues, grammaires locales, Unitex, GramLab, expressions temporelles

Informations complémentaires :

Encadrant(s) : Alain Couillault, Mickaël Coustaty, Jean-Marc Ogier

Axe thématique:IDDC (Image, Documents, Données Complexes)

Axe stratégique : Pertinence Contenu-Interaction

Cadre de coopération : Projet TourInflux (Investissement d’Avenir)

Date de début du stage : Janvier 2014

Durée du stage : 5 à 6 mois

Contexte de l’étude:

Les travaux menés par le candidat se dérouleront au sein du L3i et s’inscriront dans le projet Tourinflux. . Le projet Tourinflux, sélectionné dans le cadre de l’appel à projets Big Data du Fonds National pour la Société Numérique et financé dans le programme d’investissements d’avenir, rassemble deux entreprises, une association d’entreprises et le laboratoire L3i, et sera réalisé en partenariat avec plusieurs acteurs du tourisme de France. Ce projet vise à apporter aux acteurs du tourisme (d’abord les institutionnels mais aussi les acteurs privés) un ensemble d’outils leur permettant de gérer à la fois leurs données internes et les informations disponibles sur le web afin de mieux comprendre comment un territoire est perçu et de mieux agir sur cette perception. Les outils actuellement à disposition des institutionnels du tourisme sont insuffisants pour répondre à ce besoin du fait des problèmes de collecte, d’analyse, de manipulation et d’échange d’informations réalisés de manière beaucoup trop artisanale. L’objectif de Tourinflux est de proposer un tableau de bord complet permettant aux institutionnels du tourisme, quelle que soit leur taille, de visualiser et interpréter l’information disponible par rapport à leur territoire (aux niveaux micro et macro) afin de prendre les décisions les plus efficaces.

Le laboratoire:

Le laboratoire L3i, EA 2118 créé en 1993, représente la seule et unique composante de recherche du domaine STIC sur l’Université de la Rochelle associant très efficacement les chercheurs de l’IUT de la Rochelle, et du Pôle Sciences en informatique. Dans le cadre de la politique quadriennale (désormais quinquennale) de l’université de la Rochelle, le L3i vient d’être évalué A par l’AERES. Le laboratoire Informatique, Image et Interaction a choisi d’axer son projet de laboratoire autour de deux thèmes (Axes Thématiques) que sont « Image, Document et Données Complexes » et « Systèmes Interactifs et Images », véritables cœurs de métier du laboratoire. Par ailleurs, le laboratoire propose de mettre en avant ASPIC (Axe Stratégique Pertinence Intraction/Contenus), vecteur de visibilité de son action scientifique au sein de projets structurants et en articulation avec le monde socio-économique. Ainsi, plus d’une dizaine de projets sont actuellement menés autour de l’analyse de documents et de données complexes d’une part (en lien avec le centre européen de valorisation des contenus numériques – Valconum), et autour de l’interaction appliquée aux jeux vidéos et l’e-Education d’autre part. Par ses activités de ces six dernières années, le L3i a développé des outils et des compétences dans l’analyse de données récurrentes dans le temps et l’espace, mais également l’analyse de contenus et de données complexes et hétérogènes.

Description du sujet :

Le candidat retenu devra, à partir de corpus dans le domaine du tourisme, développement une grammaire d’analyse d’évènements touristiques, récurrents ou non, dans le temps et/ou dans l’espace (« tous les lundi », « tous les ans », « dans toutes les boutiques du réseau », «tous les mardis sur la place du marché sauf veille de jours fériés », « Hôtel ouvert toute l’année, restauration sur place seulement en été »...).

Qualifications :

Le candidat devra justifier de compétences de recherche dans au moins deux des quatre domaines suivants :

-          Traitement Automatique des Langues, Fouille de texte

-          Raisonnement temporel et/ou spatial

-          Annotation et évaluation

-          Ecriture de grammaires d’extraction

Contacts – liens :

Email : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.  ; Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.  ; Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.