Pré-treinamento de Modelos de Linguagem para a Descoberta de Mudanças Linguísticas Diacrônicas
Pretraining Language Models for Diachronic Linguistic Change Discovery
April 7, 2025
Autores: Elisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado potencial como ferramentas para descoberta científica. Isso tem gerado um interesse crescente em seu uso em disciplinas humanísticas, como linguística histórica e estudos literários. Essas áreas frequentemente constroem argumentos com base em delimitações como gênero ou, de forma mais rígida, período temporal. Embora esforços tenham sido feitos para restringir a inferência a domínios específicos por meio de ajuste fino ou edição de modelos, propomos que a única garantia verdadeira é o pré-treinamento restrito ao domínio — tipicamente, uma proposta que demanda grande quantidade de dados e recursos computacionais.
Demonstramos que técnicas eficientes de pré-treinamento podem produzir modelos úteis sobre corpora grandes demais para inspeção manual fácil, mas pequenos demais para abordagens "típicas" de LLMs. Empregamos um pipeline inovador de atribuição de datas para obter um conjunto de dados temporalmente segmentado em cinco fatias de 10 milhões de palavras cada. Treinamos duas baterias correspondentes de cinco modelos sobre esses segmentos de corpus: um com pré-treinamento eficiente e outro com ajuste fino eficiente do Llama3-8B.
Descobrimos que os modelos pré-treinados são mais rápidos de treinar do que as linhas de base ajustadas e que respeitam melhor as divisões históricas de nosso corpus. Priorizar velocidade e precisão em vez de abrangência a-histórica permite diversas abordagens inovadoras para descoberta e teste de hipóteses em nossos campos de interesse. Utilizando a linguística diacrônica como campo de testes, mostramos que nosso método permite a detecção de um conjunto diversificado de fenômenos, incluindo mudanças lexicais em massa, mudanças não lexicais (gramaticais e morfológicas) e introdução/obsolescência de sentidos de palavras. Fornecemos um pipeline pronto para uso que permite a extensão de nossa abordagem para outros campos de interesse com apenas adaptações mínimas.
English
Large language models (LLMs) have shown potential as tools for scientific
discovery. This has engendered growing interest in their use in humanistic
disciplines, such as historical linguistics and literary studies. These fields
often construct arguments on the basis of delineations like genre, or more
inflexibly, time period. Although efforts have been made to restrict inference
to specific domains via fine-tuning or model editing, we posit that the only
true guarantee is domain-restricted pretraining -- typically, a data- and
compute-expensive proposition.
We show that efficient pretraining techniques can produce useful models over
corpora too large for easy manual inspection but too small for "typical" LLM
approaches. We employ a novel date-attribution pipeline in order to obtain a
temporally-segmented dataset of five 10-million-word slices. We train two
corresponding five-model batteries over these corpus segments, efficient
pretraining and Llama3-8B parameter efficiently finetuned.
We find that the pretrained models are faster to train than the finetuned
baselines and that they better respect the historical divisions of our corpus.
Emphasizing speed and precision over a-historical comprehensiveness enables a
number of novel approaches to hypothesis discovery and testing in our target
fields. Taking up diachronic linguistics as a testbed, we show that our method
enables the detection of a diverse set of phenomena, including en masse lexical
change, non-lexical (grammatical and morphological) change, and word sense
introduction/obsolescence. We provide a ready-to-use pipeline that allows
extension of our approach to other target fields with only minimal adaptation.Summary
AI-Generated Summary