Vorverarbeitung von Sprachmodellen zur Entdeckung diachroner Sprachveränderungen
Pretraining Language Models for Diachronic Linguistic Change Discovery
April 7, 2025
Autoren: Elisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben Potenzial als Werkzeuge für wissenschaftliche Entdeckungen gezeigt. Dies hat ein wachsendes Interesse an ihrer Verwendung in humanistischen Disziplinen wie der historischen Linguistik und den Literaturwissenschaften geweckt. Diese Felder konstruieren oft Argumente auf der Grundlage von Abgrenzungen wie Genre oder, weniger flexibel, Zeitperioden. Obwohl Bemühungen unternommen wurden, die Inferenz auf spezifische Domänen durch Feinabstimmung oder Modellbearbeitung zu beschränken, vertreten wir die Ansicht, dass die einzige echte Garantie eine domänenbegrenzte Vorabschulung ist – in der Regel ein daten- und rechenintensives Unterfangen.
Wir zeigen, dass effiziente Vorabschulungstechniken nützliche Modelle über Korpora erzeugen können, die zu groß für eine einfache manuelle Überprüfung, aber zu klein für „typische“ LLM-Ansätze sind. Wir verwenden eine neuartige Datumszuweisungs-Pipeline, um einen zeitlich segmentierten Datensatz von fünf 10-Millionen-Wort-Abschnitten zu erhalten. Wir trainieren zwei entsprechende Batterien von fünf Modellen über diese Korpussegmente, effizient vorabgeschult und Llama3-8B-Parameter effizient feinabgestimmt.
Wir stellen fest, dass die vorabgeschulten Modelle schneller zu trainieren sind als die feinabgestimmten Baselines und dass sie die historischen Abteilungen unseres Korpus besser respektieren. Die Betonung von Geschwindigkeit und Präzision gegenüber a-historischer Vollständigkeit ermöglicht eine Reihe neuartiger Ansätze zur Hypothesenentdeckung und -prüfung in unseren Zielgebieten. Indem wir die diachrone Linguistik als Testumgebung verwenden, zeigen wir, dass unsere Methode die Erkennung einer vielfältigen Reihe von Phänomenen ermöglicht, einschließlich lexikalischer Veränderungen en masse, nicht-lexikalischer (grammatikalischer und morphologischer) Veränderungen sowie der Einführung/Veraltung von Wortbedeutungen. Wir stellen eine einsatzbereite Pipeline zur Verfügung, die die Erweiterung unseres Ansatzes auf andere Zielgebiete mit nur minimaler Anpassung ermöglicht.
English
Large language models (LLMs) have shown potential as tools for scientific
discovery. This has engendered growing interest in their use in humanistic
disciplines, such as historical linguistics and literary studies. These fields
often construct arguments on the basis of delineations like genre, or more
inflexibly, time period. Although efforts have been made to restrict inference
to specific domains via fine-tuning or model editing, we posit that the only
true guarantee is domain-restricted pretraining -- typically, a data- and
compute-expensive proposition.
We show that efficient pretraining techniques can produce useful models over
corpora too large for easy manual inspection but too small for "typical" LLM
approaches. We employ a novel date-attribution pipeline in order to obtain a
temporally-segmented dataset of five 10-million-word slices. We train two
corresponding five-model batteries over these corpus segments, efficient
pretraining and Llama3-8B parameter efficiently finetuned.
We find that the pretrained models are faster to train than the finetuned
baselines and that they better respect the historical divisions of our corpus.
Emphasizing speed and precision over a-historical comprehensiveness enables a
number of novel approaches to hypothesis discovery and testing in our target
fields. Taking up diachronic linguistics as a testbed, we show that our method
enables the detection of a diverse set of phenomena, including en masse lexical
change, non-lexical (grammatical and morphological) change, and word sense
introduction/obsolescence. We provide a ready-to-use pipeline that allows
extension of our approach to other target fields with only minimal adaptation.Summary
AI-Generated Summary