Lecture distante
Quatrième séance du séminaire organisé conjointement par le CSLF et la MSH Mondes “Interprétations artificielles”
La quatrième séance du séminaire “Interprétations artificielles”~, organisé conjointement par le CSLF et la MSH Mondes, aura lieu le 22 mai 2025, de 14h30 à 17h, en hybride à l’Université Paris Nanterre (bâtiment Ricoeur, Salle des conseils, 4e étage) et en visioconférence (lien ci-dessous).
Lien de visioconférence
Séance du séminaire CSLF x MSH Mondes “Interprétations artificielles”: Lecture distante (Fatiha Idmhand, Sabine Loudcher et Ioana Galleron, Motasem Alrahabi, Pedro Cabrera)
22 mai 2025 14:30 Paris
https://cnrs.zoom.us/j/94507041256?pwd=B4MNpJQkdIUSpNrcblX6i58fvvGY66.1
ID de réunion: 945 0704 1256
Code secret: RWL5ab
Fatiha Idmhand, Sabine Loudcher et Ioana Galleron: Deep Reading : l’intelligence artificielle au service de l’analyse et de l’interprétation des textes
Dans son projet de labellisation, le Consortium-HN ARIANE s’est donné pour objectif de dépasser un verrou que la numérisation massive des corpus n’a pas encore levé : celui de mieux analyser, comprendre et interpréter les textes. En d’autres termes, de lire mieux, plus, plus vite et plus profondément, ce que le consortium a défini comme le « deep reading ». Un an et demi après sa labellisation, cette conférence vise à faire un état des lieux des travaux menés jusqu’à présent et sur les initiatives du consortium qui vont dans ce sens. Nous discuterons des nouveaux défis posés par les innovations les plus récentes en matière d’IA, ainsi que des verrous qui restent à dépasser pour « assister » l’interprétation des textes.
Professeure des universités à l’Université de Poitiers et chercheuse à l’ITEM (UMR 8132), Fatiha Idmhand est spécialiste des études hispaniques, de la génétique des œuvres et des humanités numériques.
Professeure en informatique à l’Université Lyon 2, Sabine Loudcher est membre du laboratoire ERIC et responsable du master Humanités numériques. Ses recherches se concentrent sur l’analyse de données complexes, l’OLAP et les métadonnées dans les humanités numériques.
Professeure de littérature française et d’humanités numériques à l’Université Sorbonne Nouvelle, Ioana Galleron est rattachée au LATTICE (UMR 8094). Elle est spécialiste de textométrie, de stylométrie et du traitement automatique des langues appliqué aux textes littéraires, avec un intérêt particulier pour le théâtre français des XVIIe et XVIIIe siècles.
Motasem Alrahabi : Simplification automatique de textes pour l’enseignement des langues
La simplification des textes facilite l’apprentissage du français comme langue étrangère en adaptant leur lisibilité aux niveaux du CECR. Cette étude propose un outil basé sur GPT, explorant trois stratégies : Zero-Shot (ZSL), Few-Shot (FSL) et Fine-Tuning (FT). Un corpus d’une centaine de textes adaptés a été construit pour l’entraînement et l’évaluation. Les performances ont été mesurées via une similarité sémantique et la formule de Flesch, validées manuellement. Le FT offre les meilleurs résultats, malgré des incohérences pour le passage entre niveaux éloignés. Les perspectives incluent l’élargissement du corpus et l’exploration de modèles open-source comme LLama ou Mistral.
Docteur en ingénierie linguistique de Sorbonne Université, Motasem Alrahabi est ingénieur de recherche et coordinateur scientifique au sein de l’Observatoire des Textes, des Idées et des Corpus (ObTIC). Ses travaux portent sur l’analyse automatique du discours, l’identification de l’ironie et des opinions, ainsi que sur le développement d’outils pour les humanités numériques.
Pedro Cabrera : De l’objet éditorial au graphe documentaire : modéliser les petites revues fin-de-siècle par une approche computationnelle
L’amélioration récente des méthodes de traitement automatique des documents multimodaux ouvre des perspectives nouvelles pour l’étude computationnelle de corpus vastes, souvent négligés par la recherche traditionnelle. Malgré les efforts de numérisation et de catalogage menés par les bibliothèques et les équipes spécialisées, la description des collections de presse demeure fragmentaire et insuffisante. La taille considérable des archives, la complexité intrinsèque des documents et la difficulté à définir des formats standardisés pour l’extraction et l’organisation des informations rendent cette tâche particulièrement ardue.
Ces défis sont d’autant plus importants dans le cas spécifique des revues littéraires et artistiques de l’avant-garde fin-de-siècle, pour lesquelles la dimension matérielle et spatiale du support imprimé occupait une place centrale dans les expérimentations esthétiques et éditoriales. Dès lors, comment traduire fidèlement l’objet physique en une représentation numérique qui soit à la fois fiable et réellement exploitable pour les chercheurs ?
Cette présentation propose d’explorer plusieurs pistes de traitement automatique permettant d’extraire et d’organiser efficacement les informations contenues dans ces périodiques littéraires. L’objectif est de construire des corpus structurés sous la forme de graphes documentaires, facilitant ainsi leur réutilisation dans diverses chaînes d’analyse computationnelles.
Pedro Cabrera Ramirez est doctorant au laboratoire Lattice (UMR 8094, CNRS – École Normale Supérieure – Sorbonne Nouvelle) et au CSLF (EA 1586, Université Paris Nanterre). Ses recherches sont menées en partenariat avec le Département de la Découverte des collections et de l’accompagnement à la recherche de la Bibliothèque nationale de France.