Présentation

Imprimer PDF

Projet Chronolines (2011-2014)

Ce travail bénéficie d'une aide de l'Agence Nationale de la Recherche portant la référence ANR-10-CORD-010

Résumé (see abstract below)

Notre projet a pour problématique la génération d’interfaces innovantes pour une visualisation des informations selon des critères temporels. Il est à situer principalement en regard des applications de type TimeLines mais, à la différence de celles-ci, il vise à exploiter les informations temporelles contenues dans les textes, et, par là-même, à enrichir les types d’interfaces envisagées.

Les objets manipulés, appelés « Chronologies Evènementielles », seront construits à partir d’un repérage semi-automatisé d’événements et d’expressions temporelles datatives dans des textes de type ‘dépêches’ (en français et en anglais) et seront ensuite associées à des widgets de visualisation (multimédia) permettant de situer dans leur chronologie des évènements associés à un « évènement médiatique » ; ce dernier constituant en quelque sorte le « déclencheur » d’une recherche d’information visant à le re-situer par rapport à un contexte qui est l’ensemble des évènements qui peuvent lui être associés.

Notre projet s’inscrit dans la problématique plus générale de la Recherche d’Information qui vise à intégrer des composantes de la sémantique temporelle des textes pour une amélioration des performances des systèmes. Si l'on s'accorde dans ce domaine à tenir l’information temporelle comme cruciale dans les traitements, des réponses claires et unanimes n'existent cependant pas quant à la manière d’aborder la temporalité telle qu’elle est exprimée dans les textes : à savoir d’une part le fait qu’elle renvoie à la dénotation d’évènements qui ne situent pas seulement sur un axe temporel unique (qui serait celui du réalisé et du certain) et d’autre part, le fait que l’information temporelle de manière générale procède de sous-spécifications et d’ambiguïtés à différents niveaux d’analyse.

En nous focalisant sur l’analyse et la spécification d’un besoin précis en recherche d’information (celui d’un des partenaires du projet, l’AFP), nous apporterons des éléments d’avancée à la fois conceptuelle et applicative par la clarification des différents niveaux nécessaires à l’analyse de la temporalité dans les textes vis-à-vis de la finalité de cette analyse dans le cadre de systèmes de RI exploitant des interfaces interactives en particulier. De plus, à notre connaissance, aucune application visant une chaîne de traitement complète allant de l'extraction de l'information temporelle à la visualisation de celle-ci n'a pour le moment jamais été mise en place.

L’AFP diffuse actuellement dans ses services d'information de nombreuses Chronologies Evènementielles sur toute sorte d'événements médiatiques. Elles sont actuellement réalisées à la main, en reprenant des dépêches ou de la documentation transmises précédemment et sont purement textuelles (car prévues pour une utilisation presse). Elles sont dès lors inadaptées à l’usage multimédia, internet et mobile qui est désormais devenu la règle. Nous visons dans ce projet à apporter des solutions à cet état de fait en nous fixant les objectifs globaux suivants :

  1. Construire ces Chrononlogies Evènementielles de façon semi-automatique en utilisant des techniques du TAL ;
  2. Permettre à l’utilisateur de visualiser et de naviguer dans ces Chronologies Evènementielles multimédia en utilisant des technologies de visualisation.

Notre programme de travail s’organise donc tout naturellement en regard de ces deux objectifs. Plus précisément, et c’est ce qui constitue l’aspect original de notre démarche tant sur le plan conceptuel que sur celui de la visée applicative, nous appréhendons 1. et 2. en proposant de :

  1. tenir compte de la problématique de niveaux de référenciation temporelle différents, liés aux différents types de prises en charge énonciatives et modales identifiables au sein des textes ;
  2. envisager le développement d’outils permettant l’ancrage d’évènements sur une échelle de visualisation temporelle « multi-niveaux ».

Dans le premier axe, le but est de produire, en fonction d’une requête (un nom d’événement, un nom de personne, un nom d’équipe associé à une compétition, etc.), des propositions de Chronologies Evènementielles que l’utilisateur (en l’occurrence le journaliste de l’AFP) pourra éventuellement modifier avant de les valider. Il s’agit donc d’une étape de traitement automatique de la temporalité des textes, qui devra intégrer non seulement la reconnaissance, l’analyse et la normalisation des expressions temporelles et des évènements afférents, mais également l’analyse d’un certain type d’organisation discursive dans les textes liée à la prise en compte de deux phénomènes discursifs : celui de la prise en charge énonciative des contenus propositionnels (présence possible au sein des textes de différentes sources citées par l’auteur du texte) et celui – étroitement lié au premier – des caractéristiques modales des contenus propositionnels. L’analyse de ces deux phénomènes permet de rendre compte du fait que des événements peuvent par exemple, et alors même qu’ils sont datés, être présentés comme incertains ou seulement possibles par un énonciateur donné qui n’est de plus pas forcément l’auteur du texte mais un énonciateur dont l’auteur cite les propos. Il s’ensuit que cette perspective d’analyse proprement linguistique des textes (empirique) conduira à enrichir la notion même de Chronologie Evènementielle telle qu’elle est envisagée actuellement par l’AFP.

Le second axe concerne la visualisation de Chronologies Evènementielles, et a cette fois comme cible l’utilisateur final, c’est-à-dire le lecteur, l’internaute ou le possesseur d’un téléphone multimédia. Au vu des remarques formulées précédemment, les représentations temporelles ne s’appuieront pas dès lors exclusivement sur un axe temporel unique correspondant implicitement au domaine des événements déjà réalisés et certains ; par ailleurs, elles incluront notamment la possibilité de visualiser l’information selon différents grains, avec une notion de zoom avant ou arrière (comme c’est le cas dans les approches de type « lignes de temps interactives » ou TimeLines) mais aussi le fait de pouvoir visualiser des informations datatives « vagues » (comme autour du 5 novembre), ambigues (comme dans le coureur japonais a dormi deux jours avant la date d’ouverture des JO), sous-spécifiées (problème du positionnement relatif d’événements entre eux ou par rapport à des zones calendaires) ou provenant de connaissances plus ou moins partagées (chrononymes du type durant les Années Folles ou à la Belle Epoque, héméronymes du type 11-Septembre).

Si notre projet est ambitieux, il reste que la méthodologie de travail que nous proposons rend celui-ci « raisonnable » dans ses objectifs, en particulier quant à la réalisation d’une chaîne de traitement effective. En effet, nous proposons d’ancrer notre programme de travail d’une part dans (i) la spécification d’un besoin particulier en matière de visualisation de l’information selon des critères temporels et d’autre part dans (ii) une collaboration étroite entre les différents partenaires pour la définition de formats de représentation des connaissances compatibles tant du point de vue des connaissances extraites des textes que des connaissances à visualiser. Nous avons identifié trois types de verrous que nous pourrons dès lors lever en vertu de (i) et (ii) : le premier renvoie à la tâche d’analyse temporelle des textes (repérage, analyse et ancrage calendaire des unités adverbiales relatives de temps, mise en relation de celles-ci avec des évènements, typage des évènements en fonction de leurs caractéristiques aspectuelles, modales et énonciatives) ; le second concerne l’identification d’évènements saillants, c’est-à-dire utiles de représenter et de visualiser ; le dernier concerne les types d’objets graphiques à utiliser et permettant une navigation sur écran.

Notre projet conduira à de véritables retombées scientifiques et techniques, tant les recherches nécessaires dans le cadre méthodologique que nous posons concernent des enjeux importants et innovants. D’une part, l’Extraction d’Information et la Recherche d’Information selon des critères temporels autres que ceux liés aux expressions datatives absolues est un domaine de recherche récent et peu avancé. Il concerne de nombreuses applications (de la veille technologique aux moteurs de recherche, en passant par les systèmes de question-réponse, d’aide à la décision ou de résumés multi-documents) de plus en plus recherchées dans des domaines comme celui du médical et du légal. La prise en compte des événements et leur ancrage automatique dans le temps en est encore à ses débuts ; le calcul des expressions temporelles relatives, les relations entre tous les événements d’un texte et l’analyse des événements (notamment nominaux) sont autant de verrous qu’il reste à lever dans le domaine. D’autre part, la prise en compte conjointe des caractéristiques modales et énonciatives est à notre connaissance inédite, ainsi que la sélection d’événements « saillants », nécessaire à l’élaboration d’une chronologie concise et utile. Enfin, dans le monde dans lequel nous évoluons, parvenir à un mode de visualisation multimédia d’événements décrits par les textes sera également une avancée intéressante comportant des retombées techniques mais également économiques indéniables.

Abstract

The problematic of our project is the generation of innovating interfaces for viewing information according to temporal criteria. The manipulated objects, called « Event-based Chronologies », prepared from semi-automated position-finding of events and of datative temporal expressions in essentially “breaking news” type texts (written in French and in English), will be associated with visualisation (multimedia) widgets enabling to visualise events associated with a “mediatic event” in chronological order; wherein said event acts somehow as the “trigger” for information search so that said event is presented relative to a context forming the collection of events which may be associated therewith.

Our project is in line with the more general problematic of information search which aims to integrate components borrowed from temporal text semantics for improving the performances of the systems. If there is a consensus in this domain to consider temporal information as crucial in the processes, clear and unanimous answers are however lacking as regards the manner in which temporality as such is expressed in the texts: in other words, on the one hand, the fact that it refers to denoting events not only situated along a single temporal axis (an axis related to fulfilled and proven events) and on the other hand, the fact that temporal information as a whole consists of sub-specification and ambiguity at different levels.

By focusing on the analysis and the specification of a specific need for information research (expressed by one of the partners in the project, the AFP), we believe that we can provide both conceptual and applicative pioneering elements through clarification of the analysis object (temporality in texts) and of the aim of its analysis in the context of IR (info-research) systems thereby supported. Moreover, to the best of our knowledge, no application bearing upon a complete processing chain ranging from the extraction of temporal information to the visualisation thereof has yet been set up.

AFP currently diffuses numerous Event-based Chronologies over a wide range of mediatic events via its information departments. They are currently handled manually, by copying breaking news or documentation transmitted previously and are purely textual (since provided for the press). There are hence unsuited to multimedia, Internet and mobile usage, which has now become the rule. The purpose of this project is to provide a solution to this situation by setting ourselves the global following objectives:

  1. Assist semi-automatic construction of these Event-based Chronologies by using NLP (natural language processing) techniques.
  2. View and browse multimedia Event-based Chronologies by using visualmisation technologies

Our working programme is hence organised quite simply in the light of both these objectives. More precisely, and this the original aspect of our approach from a conceptual angle as well as regards the applications contemplated, we combine items 1. and 2. while suggesting as follows:

  1. on the one hand taking into account the problematic of different levels of temporal referencing, associated with the different types of enunciative and modal managements which can be identified within the texts;
  2. and on the other hand to contemplate the development of tools enabling to anchor events along a “multilevel” temporal visualisation scale.

In the first axis, the aim is to generate, in relation to a request (the name of an event, of a person, of a team associated with a competition, etc.), propositions of Event-based Chronologies which the user (the AFP journalist in that particular instance) may optionally modify before validation. This is hence an automatic processing step of the temporality of the texts, which should integrate not only the recognition, the analysis and the normalisation of the temporal expressions and of the matching events, but also the analysis of a certain type of discursive organisation in the texts in the perspective of two discursive phenomena: that of the enunciative management of the propositional contents (possible presence within the texts from different sources called upon the author of the text) and that – strongly linked with the former - of the modal characteristics of the propositional contents. The analysis of both these phenomena enables to account for the fact that events may for instance, and whereas they have been dated, come across as uncertain or only possible by a given enunciator who is not obligatorily the author of the text but an enunciator barely quoted by the author. It follows that this properly linguistic (empiric) analysis perspective of the texts will lead to enrich the very notion of Event-based Chronology as currently contemplated by the AFP.

The second axis concerns the visualisation of Event-based Chronologies, and the target this time is the end-user, i.e. the reader, the internaut or the owner of a multimedia telephone. Judging by the remarks formulated previously, the temporal representations will not henceforth rest exclusively on a single temporal axis corresponding implicitly to the domain of the already performed and proven events; besides, they will include the possibility of viewing information with different image resolutions, with a notion of zooming in and out (as is the case in “Interactive Time Lines” type approaches but also the capability of viewing datative information which may be “vague” (as around the 5th November), ambiguous (as in the Japanese runner slept for two days before the opening date of the Olympic Games), under-specified (problem of the relative positioning of events to one another or with respect to calendar zones) or originating from more or less shared knowledge (chrononyms such as during the Roaring Twenties or during the “Belle Époque”, hemeronyms such as September 11).

Even if our project is ambitious, it remains that the work methodology that we suggest makes it “reasonable“ in its objectives, in particular regarding the realisation of an effective processing chain. Indeed, we propose to anchor our working programme on the one hand in (i) the specification of a specific need and on the other hand in (ii) a close collaboration between the different partners for defining knowledge representation formats which are compatible with the knowledge extracted from texts as well as with the knowledge corpi to view. We have identified three types of barriers which we think we can unlock by virtue of (i) and (ii) : the first one refers to the temporal analysis task of the texts (position-finding, analysis and calendar anchoring of temporal relative adverbial units, reconciling them with events, typifying events according to their aspectual, modal and enunciative characteristics) ; the second one concerns the identification of salient events, i.e. useful to represent and to view; the last one concerns the types of graphic objects to be used and enabling on-screen browsing.

Our project will produce real scientific and technical spin-offs. Indeed, the necessary researches within the methodological framework we have chosen have taken up important and innovating stakes. On the one hand, Information Search according to temporal criteria other than those associated with absolute datative expressions is a young and little investigated domain of research with numerous applications, from technological watch to search engines, via question/answer systems, decision-making assistance or multidocument abstracts. Taking events on board and anchoring them automatically in time are still at their embryonic stages; the calculation of the relative temporal expressions, the relations between all the events of a text and the analysis of the events (in particular nominal events) are as many barriers to be unlocked in this domain. On the other hand, taking into account modal and enunciative characteristics jointly is unheard of, to the best of our knowledge and belief, as well as the selection of “salient” events which is necessary to the production of a concise and useful chronology. Finally, in the world around us, being able to provide a multimedia visualisation mode of events described by the texts would also be an interesting breakthrough with technical, but undeniable economic spin-offs.