Vers une méthode de visualisation graphique dynamique de la diachronie

Equipe « Modèles mathématiques et informatiques pour le langage »
S. Ploux, A. Boussidan, C. Franco, A.L. Renon

Au sein de l’équipe "Modèles mathématiques et informatiques pour le langage" nous travaillons sur le paradigme des Atlas Sémantiques (AS) développés par l'équipe. L’animation ci-dessus est une première ébauche d’un travail en cours visant à modéliser le changement sémantique. Cette animation se base sur l’Automatic Contexonym Organizing Model (ACOM) et son extension, qui traitent de contexonymes, c’est-à dire de mots co-occurrents dans le texte. (sur ACOM : Ji, H. et.al. 2003. Lexical knowledge with contexonyms. In Proceedings of the 9th MT summit, pp. 194-201.)

A partir du modèle géométrique des AS et d’ACOM (développé par H. Ji), Armelle Boussidan poursuit un travail de thèse visant au traitement dynamique de la représentation du sens, en s’appuyant sur des méthodes de linguistique de corpus et de diachronie dans la lignée de la linguistique historique. La dynamique étant par essence imprévisible, nous nous attachons à étudier les mécanismes principaux du changement sémantique sur le plan lexical et les méthodes de sa détection et de son analyse. Pour l’heure l’équipe travaille sur un corpus de test en vue de réaliser un prototype paramétrable et adaptable. Cette démarche propose à la fois une adaptation du modèle de représentation dans un paradigme dynamique (modélisation) et l’élaboration d’un outil d’analyse à l’intention des disciplines qui travaillent avec le texte et le sens. La particularité de cette démarche diachronique est qu’elle se concentre sur de très courtes périodes de temps pour chercher à extraire des mécanismes rapides et subtils de changement du sens dans de vastes corpus. Cette approche du comportement sémantique s’apparente à une dissection du sens, ou à une vision au microscope, toujours dans un paradigme continu mais comportant différents degrés de structuration et d’analyse (cliques, mots, clusters, cartes). La méthode s’attache donc à traiter tous les changements sémantiques avec précision et réunit sous un même observatoire connotation, innovation, obsolescence, métonymie et autres formes et causes de changements traditionnellement établies par les typologies en linguistique. Nous traitons ainsi un grand nombre de phénomènes avec une précision très fine quel que soit leur statut typologique.

Dans ce cadre Charlotte Franco a développé un outil informatique permettant, par le biais d’une applet java, la visualisation des cartes sur des sous-corpus divisés en périodes temporelles. Cette applet appelle un programme C qui passe en paramètres quatre coefficients de diffusion de l’espace et génère la base des contexonymes ainsi que les coordonnées des cliques pour chaque période de temps. Ces coefficients servent à calculer le seuil d’intégration du nombre de contexonymes. La classe java crée un nuage de points (cliques) muni de ses axes. On peut désormais choisir la fenêtre temporelle souhaitée en fonction de l’objet de la recherche. On obtient ainsi des séries de cartes montrant l’évolution de contextes associés dans le temps. A partir de ces cartes, l'utilisation d'un dispositif dynamique utilisant l'interpolation permet la visualisation du passage entre les étapes.

Le modèle géométrique pose également d'autres questions de recherche. En effet, les sens sont représentés par des formes générées par une analyse factorielle des correspondances dans un espace multidimensionnel puis sont structurées en clusters par un algorithme de hiérarchie. Quel est le rapport entre la forme obtenue et le sens ? Comment s’opère le passage d’une forme à l’autre, reflet du passage d’un sens à l’autre ? Sur cette question Anne-Lyse Renon propose une réflexion graphique sur les cartes qui s’appuie sur les propriétés structurales des formes générées pour la représentation de l'évolution du sens. En utilisant les propriétés de surface et de contour de la forme des cartes, l'interpolation permet de visualiser de manière dynamique les glissements sémantiques au travers de l'évolution graphique. Elle permet également d’interroger le statut de l'espace-temps présent dans le procédé de l'animation.

L’animation ci-dessous est une représentation de l’évolution du sens du mot « mondialisation » dans un corpus du journal « Le Monde » entre 1997 et 2001. Nous avons délibérément sélectionné quelques mots mis en jeu (« défi », « menace », « progrès » et « alternatif »). On peut observer ici le passage d’un sens relativement générique à des sens plus spécifiques, liés entre autres à la création des néologies formelles « antimondialisation » et « altermondialisation » sur cette période. On voit également l'évolution de l’enveloppe globale du mot et de la densité à l’intérieur de celle-ci. Les clusters de sens changent également au cours du temps, regroupant parfois des notions qui s’opposent par la suite (voire le comportement de « menace » et « progrès »).

Pour plus de détails quant à cet exemple, le lecteur peut se reporter à l’article (Boussidan, A., Renon, A.-L., Franco, C., Lupone, S., and Ploux, S. Vers une méthode de visualisation graphique dynamique de la diachronie des néologies. Actes du colloque international Néologie sémantique et corpus, Tübingen, Allemagne, à paraître.)

Cette première représentation dynamique sera suivie de travaux ultérieurs et l’équipe de recherche recevrait avec intérêts commentaires et critiques à son sujet. Nous pensons par exemple mettre à profit ce nouveau modèle dynamique dans le cadre de plusieurs axes de recherche dont la détection de métaphores en tant que moteurs du changement sémantique.

Projet soutenu par la Région Rhône-Alpes, Programme CIBLE 2009, Modélisation sémantique dynamique en Traitement
automatique des langues (TAL) et pour le Web.
Région Rhône-Alpes