Quelle plus-value du CNRTL pour les professeurs de Lettres ?  Fonctionnement du « Portail Lexical » et pistes d’exploitations pédagogiques

, par Cécile LE CHEVALIER, Lauriane VAREILLE

1. Question de métier et rappel des programmes

Cruciale en Français, la question de l’acquisition et de l’enrichissement du lexique se pose de façon récurrente, à tous les niveaux, au collège comme au lycée. De façon répétée, il apparaît que, même lorsque les élèves ont travaillé de façon approfondie certains champs lexicaux ou familles de mots, leur mobilisation de ces connaissances demeure aléatoire. Cela donne l’impression que ce sont les mécanismes mêmes de construction du lexique qui ne sont pas toujours parfaitement en place.

Dans le cadre des programmes (voir l’encadré), le recours au dictionnaire paraît indispensable.

Les programmes du cycle 4 prévoient « l’usage du dictionnaire (au format papier ou numérique) », ainsi que l’analyse du sens des mots : polysémie, synonymie, antonymie, homonymie, nuances et glissements de sens, dénotation, connotation, niveau de langue, locutions et construction des verbes.

Les programmes de lycée, de leur côté, invitent au « rappel des modes de néologie (dérivation, composition, emprunt, etc.) » et des « relations lexicales (synonymie, antonymie, hyperonymie, etc.) », en précisant que « l’exploration du lexique doit se déployer au gré des rencontres avec les textes, hors du cadre rigide d’exercices mécaniques, afin de mettre au jour les accointances discrètes ou les voisinages féconds entre les mots ».

Sur internet, le portail lexical du CNRTL [1] propose un accès libre et gratuit à différents outils en lien avec le lexique. De nos jours, un tel portail peut s’avérer précieux, notamment s’il permet d’éviter de recourir aux dictionnaires au format papier qui, dans les établissements, posent souvent des problèmes d’organisation.

Mais dans quelle mesure un outil créé par des chercheurs pour des chercheurs est-il approprié aux usages pédagogiques du second degré ?

Nous nous sommes interrogées sur les éventuelles plus-values pédagogiques du portail lexical du CNRTL, et nous avons tenté de les cerner en analysant le fonctionnement de ses différents onglets.

Nous invitons le lecteur à ne pas lire cet article de façon linéaire, mais à utiliser le sommaire pour se rendre plus rapidement aux parties qui l’intéressent, quitte à revenir en arrière par la suite.

2. Présentation du CNRTL

Selon la présentation qui en est faite, le Centre National de Ressources Textuelles et Lexicales a pour objectif de « réunir au sein d’un portail unique, le maximum de ressources informatisées et d’outils de consultation pour l’étude, la connaissance et la diffusion de la langue française ».

Il s’agit avant tout d’un outil conçu par des chercheurs pour les chercheurs [2], dont le fonctionnement peut, au moins pour certains onglets, paraître à première vue extrêmement opaque.

a. Les onglets « Morphologie », « Lexicographie » et « Étymologie »

Les onglets « Morphologie », « Lexicographie » et « Étymologie » proposent pour chaque mot les éléments que l’on trouve dans les dictionnaires traditionnels au format papier : 

  • onglet « Morphologie » : variations du mot en genre et en nombre, conjugaisons lorsqu’il s’agit d’un verbe, et prononciation ; cet onglet s’appuie sur le lexique Morphalou 2.0 du laboratoire ATILF ;
  • onglet « Lexicographie » : données associées au mot (définitions, exemples d’emplois, étymologie…). Par défaut, l’onglet présente les données du Trésor de la Langue Française informatisé (TLFi), qui propose des définitions et étymologies très complètes, associées à des exemples tirés de textes littéraires.
  • onglet « Étymologie » : étymologie du mot d’après le Trésor de la Langue Française informatisé (TLFi) et le projet de recherche TLF-Étym, avec évolution des emplois.
Autres dictionnaires du CNRTL

Les bannières dans la colonnes de gauche permettent d’accéder à d’autres dictionnaires :

  • 9ème édition du Dictionnaire de l’Académie Française : étymologie rapide et définitions plus courtes, structurées par pôles sémantiques ;
  • 8ème édition du Dictionnaire de l’Académie Française : définitions courtes, structurées par pôles sémantiques ;
  • 4ème édition du Dictionnaire de l’Académie Française : définitions courtes, mais rassemblées dans un même paragraphe ;
  • Base de Données Lexicographiques Panfrancophone de l’Université Laval de Québec (BDLP) ;
  • Base Historique du Vocabulaire Français (BHVF) du laboratoire ATILF ;
  • Dictionnaire du Moyen Français (DMF) (1330 - 1500) du laboratoire ATILF.

Dans l’onglet « Lexicographie », les définitions du TLFi sont organisées et formulées de façon claire, et déploient méthodiquement toutes les nuances de sens en les illustrant de nombreux exemples, ce qui les rend très exhaustives. Le fait que les différentes définitions soient surlignées en jaune facilite toutefois la navigation d’une signification du mot à l’autre, ainsi que l’appropriation de la structure générale des articles. Dans les Dictionnaires de l’Académie Française , les définitions sont moins illustrées d’exemples, et d’un abord plus synthétique :

Les définitions du nom « monstre » dans le TLFi (à gauche), et dans les 9ème et 8ème versions du Dictionnaire de l’Académie Française (à droite)

Le choix pédagogique de l’un ou l’autre de ces dictionnaires différera donc naturellement en fonction des niveaux, situations et objectifs que l’enseignant s’est fixés [3].

b. Les onglets « Synonymie » et « Antonymie »

Dans le CNRTL, qui s’appuie sur les résultats du DES [4], les onglets « Synonymie » et « Antonymie » proposent des mesures des degrés de synonymie ou d’antonymie sous forme de jauges de couleur.

Prenons l’exemple du terme abeille assez pauvre en synonymes.

Dans le « Portail lexical » du CNRTL, l’onglet « Synonymie » affichera le résultat suivant :

Synonymie du nom « abeille » dans le CNRTL

Dans le DES, la même recherche donne un résultat plus complet [5]

Synonymie du nom « abeille » dans le DES

La différence entre les résultats, qui s’explique (voir le document joint comparant et expliquant le détail des données du CNRTL et du DES), donne à entendre que les résultats de ce type d’analyse sont à prendre avec précaution. Tout dépend du corpus retenu pour faire les analyses. Si le professeur veut travailler ces questions, il semble indispensable de prendre en compte les résultats des deux outils.

Comparatif CNRTL/DES

c. L’onglet « Proxémie »

Le concept de proxémie, développé par Bruno Gaume, résulte d’une approche mathématique des langages naturels et relève du traitement automatique de ces langages. Il s’appuie sur le fonctionnement des « réseaux lexicaux » constitués par les machines [6].

Pour établir la proxémie d’un mot, deux grandes étapes sont nécessaires :

1. On constitue un réseau de mots, en se fondant :

  • sur leur cooccurrence à l’intérieur d’un grand corpus (par exemple, deux mots sont reliés entre eux s’ils apparaissent fréquemment à quatre ou cinq mots d’intervalle, au plus, dans un corpus de taille importante) ;
  • sur leur présence à l’intérieur des définitions des autres termes qui constituent ledit réseau dans un ou plusieurs dictionnaires, cette présence pouvant intervenir dans la définition proprement dite, dans les exemples liés à cette définition, ou dans une liste de synonymes voire même d’antonymes.

De ce fait, la composition du réseau d’un mot est extrêmement variée, et peut inclure des hyperonymes aussi bien que des cohyponymes inter- ou intra-domaine.

Comme le montre la vidéo ci-dessous, dans ce type de réseau lexical, on s’éloigne beaucoup de la stricte synonymie [7] .

Pour des raisons mathématiques, le réseau ainsi constitué est envisagé comme un graphe [8], à partir duquel on va pouvoir établir les éléments connexes [9].

2. Une fois le graphe construit, on lui applique l’algorithme Prox qui permet d’isoler [10] les différents homonymes correspondant à une même graphie pour les organiser en différents pôles sémantiques du mot.
Pour le verbe jouer, on obtiendra ainsi :

  • un premier homonyme jouer signifiant « s’amuser »,
  • un second homonyme jouer se rattachant à l’idée de « jouer d’un instrument »,
  • un troisième qui sera synonyme de « user » dans l’expression jouer de son charme, etc.

Ensuite, l’algorithme va calculer la « distance proxémique » des différents mots à l’intérieur du réseau : ce calcul permettra de les disposer dans l’espace les uns par rapport aux autres en fonction des distances trouvées. Complexe, il présente la particularité de ne pas prendre en compte uniquement les voisins immédiats de chaque sommet, mais également l’ensemble du graphe, de façon à pouvoir rapprocher ce que l’on pourrait désigner comme des « synonymes approximatifs » : ainsi, déshabiller et écorcer, qui n’apparaissent pas dans les définitions l’un de l’autre, sont rapprochés par la proxémie. Bruno Gaume parle alors de mots plus ou moins « prox » les uns des autres [11].

La représentation ci-dessous, de la proxémie du nom abeille [12], donne un exemple de ce que l’on peut obtenir [13] :

La proxémie du nom « abeille » sur le CNRTL

D’un premier groupe, composé de synonymes d’abeille (mouche à miel, avette, apis), on passe, par le biais de l’ouvrière qui peut désigner une catégorie d’abeilles, au champ lexical de la jeune ouvrière, plus particulièrement spécialisée dans l’industrie textile (midinette, grisette, trottin, arpète, modiste, couturière, cousette…), puis à celui de la jeune, voire très jeune fille (fille, tendron).

Sont donc mis en relation, par ce type de proximité, des mots, voire des champs lexicaux parfois très éloignés. De l’abeille au tendron, le passage est loin d’être immédiat. Mis en relation dans le graphe ci-dessus, la progression de l’un à l’autre se fait pourtant de façon limpide et juste.

Tous les mots de ce graphe possèdent des sèmes communs : ils désignent des êtres vivants perçus comme « petits » ou « jeunes », de genre féminin, caractérisés par un côté travailleur, presque industrieux.


«    La proxémie calculée par l’algorithme prox organise dans un continuum les notions d’hypéronymie, de cohyponymie intradomaine (par les sommets les plus « prox ») et de cohyponymie interdomaines (par les sommets un peu moins « prox »).

L’introduction de la notion de « proxémie » qui recouvre ces trois notions permet de souligner le glissement de sens continu qu’il y a d’un mot en relation synonymique (cohyponyme intradomaine) vers un mot en relation métaphorique (cohyponyme interdomaine) au fur et à mesure que la proxémie au mot de référence diminue. »

(Bruno Gaume, 2004, p. 22)

Dans l’exemple qui nous occupe, abeille pourrait très bien, en fonction des contextes, être interprété comme métaphore de fille, ou de « jeune ouvrière ».
Naturellement, le choix des mots peut varier de façon significative en fonction du corpus sur lequel on s’appuie. En témoigne cette représentation de la proxémie du mot abeille sur le site autourdumot.fr [14] qui s’avère très différente :

La proxémie du nom « abeille » sur le site autourdumot.fr

Cette fois-ci, ce n’est pas l’ouvrière, mais la reine qui est mise en avant… en même temps qu’un caractère maya qui pourrait bien provenir du personnage de Maya l’Abeille, et qui ne risquait donc pas de faire surface dans le corpus beaucoup plus classique, et sérieux, du CNRTL.

Comme on le voit, c’est le glissement d’un mot à l’autre, et, pour un même mot, d’un pôle sémantique à l’autre, que la notion de proxémie permet de travailler.

En ce sens, la proxémie est intéressante, car elle permet à la fois de réfléchir aux relations qu’entretiennent différents mots, en particulier lorsqu’ils sont considérés comme synonymes, et de les organiser en réseaux sémantiques en faisant apparaître leur plus ou moins grande proximité avec les différents sens du mot-noyau.

3. CNRTL : quelles plus-values pédagogiques et quelles limites ?

Pour situer la plus-value pédagogique de chaque type d’onglet, nous nous proposons de reprendre les catégories du schéma SAMR de Ruben Puentedura [15] : 

a. Les onglets « Morphologie », « Lexicographie » et « Étymologie »

Avec ces onglets, nous nous situons dans la « substitution » ou dans « l’augmentation » : 

  • « substitution », si l’on considère que les dictionnaires proposés au format numérique sont des équivalents des mêmes dictionnaires au format papier, sans enrichissement particulier à part, peut-être, des exemples audio de la prononciation des mots [16] ; 
  • « augmentation », si l’on considère que via le CNRTL, au moins quatre dictionnaires utilisables dans le second degré sont mobilisables à tout instant, notamment pour des élèves équipés en ordinateurs ou tablettes, comme c’est le cas actuellement dans environ la moitié des lycées d’Île-de-France.

Le fait que quatre dictionnaires soient mobilisables, et pas un seul, permet d’envisager de comparer facilement les définitions de plusieurs dictionnaires, pour un travail qui ne porterait plus sur la structure particulière d’une définition, mais sur la structure des définitions en général : dans ce cas, la tâche évoluerait et l’on entrerait même dans la « modification ».

b. Les onglets « Synonymie », « Antonymie » et « Proxémie »

Ces onglets sont directement liés à des outils de traitement automatique du langage [17].

Il en ressort des données dont l’exploitation peut s’avérer très porteuse : c’est notamment le cas lorsque l’onglet « Proxémie » associe des mots qui entretiennent, dans le langage, des rapports métaphoriques ; dans le cadre d’un travail d’expression écrite, on pourrait par exemple envisager d’utiliser cet onglet pour y puiser des idées de métaphores.

Néanmoins, ce traitement automatique peut parfois poser des problèmes du point de vue du sens : 

  • le choix des « meilleurs » synonymes et antonymes d’un mot, s’il est révélateur d’un état de la langue dans les limites d’un certain corpus, demeure la plupart du temps peu fiable pour le locuteur du XXIe siècle ; 
  • dans les mots unis par la proxémie, le calcul des distances entre les mots, et parfois celui des liens qui les unissent, ne correspondent pas toujours à l’appréhension « spontanée » du locuteur humain : si l’on reprend l’exemple du nom abeille, peu de gens à notre époque la désigneront comme avette, apis ou mouche à miel ; en revanche, nous utiliserons très spontanément les mots d’insecte ou, peut-être, de butineuse, qui, pour des raisons de corpus, n’apparaissent pas dans la proxémie du CNRTL.

À partir de là, les utilisations pédagogiques de ces trois onglets nécessitent une dimension critique : 

  • il est possible de les utiliser pour y puiser des idées d’antonymes ou de synonymes ; dans ce cas, on se situera dans une substitution assez imparfaite de l’outil numérique à l’outil papier, sauf si la tâche proposée à l’élève implique une critique argumentée des propositions faites par la machine : dans ce cas, on évoluera vers la modification de la tâche.
  • toutefois, en menant une réflexion plus approfondie sur la nature même de ces outils, il est possible d’entrer dans une redéfinition de cette tâche, dans laquelle l’humain ne se contente plus d’utiliser la machine, mais observe son fonctionnement pour le reproduire… en l’ « humanisant ».

L’analyse et la critique constructive des onglets « Synonymie », « Antonymie » et « Proxémie » aboutissent alors à la redéfinition des tâches, ces dernières permettant de travailler la compétence à construire le lexique et non plus simplement le sens de quelques mots.

Notes

[1Centre National de Ressources Textuelles et Lexicales.

[2Par la mutualisation de connaissances issues des travaux de différents laboratoires, le CNRTL veut « optimiser la production, la validation, l’harmonisation, la diffusion et le partage de ressources, qu’il s’agisse de données textuelles et lexicales informatisées ou d’outils permettant un accès intelligent à leur contenu ».

[3Les données de la BDLP, de la BHVF et du DMF, en revanche, s’adressent aux spécialistes de la langue et de son histoire. C’est également le cas de l’onglet « Étymologie », principalement fondé sur le TLFi, qui retrace l’histoire des mots de façon extrêmement détaillée.

[4Les mesures sont réalisées par le Dictionnaire Électronique des Synonymes (DES) du laboratoire CRISCO. Il s’agit au départ de mesures chiffrées, effectuées par des machines à partir de corpus de dictionnaires. Le CNRTL ne reprend dans les faits qu’une partie de ce que propose le DES.

[5Le terme de clique utilisé ci-dessous désigne un groupe de synonymes à l’intérieur duquel chaque mot est synonyme de tous les autres.

[6Son fonctionnement est décrit de façon détaillée par Bruno Gaume, chargé de recherches en Cognition, Langues, Langage, Ergonomie (CLLE) au CNRS, dans deux articles :

[7Précisons que, comme le choix a été fait de prendre un verbe et que le travail d’analyse pour les verbes ne peut se faire sans tenir compte de leur comportement syntaxique - ce qui complexifie l’analyse - retirer est à entendre comme : retirer + complément (une écorce, un vêtement, une chaussure ...)

[8Une présentation détaillée de ce qu’est un graphe et d’une application possible à l’interprétation d’une pièce de théâtre est disponible dans l’article « Bajazet interprété par les graphes ».

[9Soit, en mathématiques, selon la terminologie de la théorie des graphes, les matrices d’adjacence de chaque mot.

[10Techniquement, l’algorithme Prox permet de désambiguïser les mots.

[11Bruno Gaume rapproche ce fonctionnement des approximations produites par les jeunes enfants autour de 2-3 ans, du type :

  • « je déshabille l’orange » pour « je pèle l’orange »
  • « le livre est cassé » pour « le livre est déchiré »
  • « il faut soigner la voiture » pour « il faut réparer la voiture ».

Dans l’acquisition du langage, l’enfant qui ne possède pas le mot relevant d’un domaine spécifique ni son mot englobant recourt donc, spontanément, à une approximation par un mot-cousin connu et maîtrisé. L’adulte suit parfois le même processus, par exemple lorsque, dans une langue étrangère, il lui manque un mot relevant d’un domaine spécifique.

[12Pour préserver la clarté de l’explication, nous choisissons volontairement ici un mot doté d’une proxémie limitée ; notre propos est de donner à voir les mécanismes en jeu dans l’établissement des liens entre les mots, non de proposer un mot à la proxémie particulièrement riche ou « porteuse ».

[13Dans l’outil de visualisation du CNRTL, les graphes sont en trois dimensions, et la taille des sommets varie en fonction de leur proximité supposée avec l’observateur, non de leur importance.

[14Autre site de visualisation de la proxémie basé sur Prox. La proxémie est ici limitée à 20 mots pour conserver une relative lisibilité.

[15Le schéma SAMR de Ruben Puentedura évalue l’apport des outils numériques d’après l’évolution qu’ils permettent en termes de pratiques pédagogiques

[16Ces enregistrements ne paraissent cependant pas fonctionner à l’heure où nous écrivons cet article.

[17Dans ces outils issus des recherches en traitement automatique du langage, le lexique est considéré comme un ensemble de données qui sont soumises à un traitement opéré par divers algorithmes.

Partager

Imprimer cette page (impression du contenu de la page)