Pré-entraînement de modèles de langage pour la découverte de changements linguistiques diachroniques
Pretraining Language Models for Diachronic Linguistic Change Discovery
April 7, 2025
Auteurs: Elisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner
cs.AI
Résumé
Les grands modèles de langage (LLM) ont démontré leur potentiel en tant qu'outils pour la découverte scientifique. Cela a suscité un intérêt croissant pour leur utilisation dans des disciplines humanistes, telles que la linguistique historique et les études littéraires. Ces domaines construisent souvent leurs arguments sur la base de délimitations comme le genre, ou plus rigide, la période temporelle. Bien que des efforts aient été faits pour restreindre l'inférence à des domaines spécifiques via le fine-tuning ou l'édition de modèles, nous postulons que la seule garantie véritable est le pré-entraînement restreint à un domaine - généralement une proposition coûteuse en données et en calcul.
Nous montrons que des techniques de pré-entraînement efficaces peuvent produire des modèles utiles sur des corpus trop vastes pour une inspection manuelle facile mais trop petits pour les approches "typiques" des LLM. Nous utilisons un pipeline novateur d'attribution de dates afin d'obtenir un ensemble de données segmenté temporellement en cinq tranches de 10 millions de mots. Nous entraînons deux batteries de cinq modèles correspondants sur ces segments de corpus, un pré-entraînement efficace et un fine-tuning efficace des paramètres de Llama3-8B.
Nous constatons que les modèles pré-entraînés sont plus rapides à entraîner que les modèles de référence fine-tunés et qu'ils respectent mieux les divisions historiques de notre corpus. En privilégiant la vitesse et la précision plutôt qu'une exhaustivité a-historique, cela permet d'explorer de nouvelles approches pour la découverte et le test d'hypothèses dans nos domaines cibles. En prenant la linguistique diachronique comme banc d'essai, nous montrons que notre méthode permet de détecter un ensemble diversifié de phénomènes, y compris le changement lexical en masse, le changement non lexical (grammatical et morphologique), ainsi que l'introduction/l'obsolescence des sens des mots. Nous fournissons un pipeline prêt à l'emploi qui permet d'étendre notre approche à d'autres domaines cibles avec seulement une adaptation minimale.
English
Large language models (LLMs) have shown potential as tools for scientific
discovery. This has engendered growing interest in their use in humanistic
disciplines, such as historical linguistics and literary studies. These fields
often construct arguments on the basis of delineations like genre, or more
inflexibly, time period. Although efforts have been made to restrict inference
to specific domains via fine-tuning or model editing, we posit that the only
true guarantee is domain-restricted pretraining -- typically, a data- and
compute-expensive proposition.
We show that efficient pretraining techniques can produce useful models over
corpora too large for easy manual inspection but too small for "typical" LLM
approaches. We employ a novel date-attribution pipeline in order to obtain a
temporally-segmented dataset of five 10-million-word slices. We train two
corresponding five-model batteries over these corpus segments, efficient
pretraining and Llama3-8B parameter efficiently finetuned.
We find that the pretrained models are faster to train than the finetuned
baselines and that they better respect the historical divisions of our corpus.
Emphasizing speed and precision over a-historical comprehensiveness enables a
number of novel approaches to hypothesis discovery and testing in our target
fields. Taking up diachronic linguistics as a testbed, we show that our method
enables the detection of a diverse set of phenomena, including en masse lexical
change, non-lexical (grammatical and morphological) change, and word sense
introduction/obsolescence. We provide a ready-to-use pipeline that allows
extension of our approach to other target fields with only minimal adaptation.Summary
AI-Generated Summary