ChatPaper.aiChatPaper

Vooraf trainen van taalmodelen voor de ontdekking van diachrone taalverandering

Pretraining Language Models for Diachronic Linguistic Change Discovery

April 7, 2025
Auteurs: Elisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner
cs.AI

Samenvatting

Grote taalmodellen (LLMs) hebben potentieel getoond als instrumenten voor wetenschappelijke ontdekking. Dit heeft een groeiende interesse gewekt in hun gebruik in humanistische disciplines, zoals historische taalkunde en literatuurwetenschappen. Deze vakgebieden construeren vaak argumenten op basis van afbakeningen zoals genre, of rigider, tijdsperiode. Hoewel er inspanningen zijn geleverd om inferentie te beperken tot specifieke domeinen via fine-tuning of modelbewerking, stellen wij dat de enige echte garantie domeingerichte pretraining is -- doorgaans een data- en rekenintensieve onderneming. Wij tonen aan dat efficiënte pretrainingstechnieken nuttige modellen kunnen opleveren over corpora die te groot zijn voor eenvoudige handmatige inspectie, maar te klein voor "typische" LLM-benaderingen. Wij gebruiken een innovatieve datumtoekenningspipeline om een tijdelijk gesegmenteerde dataset te verkrijgen van vijf segmenten van elk 10 miljoen woorden. Wij trainen twee corresponderende batterijen van vijf modellen over deze corpussegmenten, efficiënt gepretraind en Llama3-8B-parameter efficiënt gefinetuned. Wij constateren dat de gepretrainde modellen sneller te trainen zijn dan de gefinetunde referentiemodellen en dat zij de historische verdelingen van ons corpus beter respecteren. Door snelheid en precisie te benadrukken boven a-historische volledigheid, worden een aantal nieuwe benaderingen mogelijk voor het ontdekken en testen van hypothesen in onze doelgebieden. Door diachrone taalkunde als testcase te nemen, tonen wij aan dat onze methode de detectie van een diverse set van fenomenen mogelijk maakt, waaronder lexicale veranderingen op grote schaal, niet-lexicale (grammaticale en morfologische) veranderingen, en de introductie/veroudering van woordbetekenissen. Wij bieden een gebruiksklare pipeline die uitbreiding van onze aanpak naar andere doelgebieden mogelijk maakt met slechts minimale aanpassing.
English
Large language models (LLMs) have shown potential as tools for scientific discovery. This has engendered growing interest in their use in humanistic disciplines, such as historical linguistics and literary studies. These fields often construct arguments on the basis of delineations like genre, or more inflexibly, time period. Although efforts have been made to restrict inference to specific domains via fine-tuning or model editing, we posit that the only true guarantee is domain-restricted pretraining -- typically, a data- and compute-expensive proposition. We show that efficient pretraining techniques can produce useful models over corpora too large for easy manual inspection but too small for "typical" LLM approaches. We employ a novel date-attribution pipeline in order to obtain a temporally-segmented dataset of five 10-million-word slices. We train two corresponding five-model batteries over these corpus segments, efficient pretraining and Llama3-8B parameter efficiently finetuned. We find that the pretrained models are faster to train than the finetuned baselines and that they better respect the historical divisions of our corpus. Emphasizing speed and precision over a-historical comprehensiveness enables a number of novel approaches to hypothesis discovery and testing in our target fields. Taking up diachronic linguistics as a testbed, we show that our method enables the detection of a diverse set of phenomena, including en masse lexical change, non-lexical (grammatical and morphological) change, and word sense introduction/obsolescence. We provide a ready-to-use pipeline that allows extension of our approach to other target fields with only minimal adaptation.
PDF62April 10, 2025