ChatPaper.aiChatPaper

Предварительное обучение языковых моделей для обнаружения диахронических языковых изменений

Pretraining Language Models for Diachronic Linguistic Change Discovery

April 7, 2025
Авторы: Elisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner
cs.AI

Аннотация

Крупные языковые модели (LLM) продемонстрировали потенциал в качестве инструментов для научных открытий. Это вызвало растущий интерес к их использованию в гуманитарных дисциплинах, таких как историческая лингвистика и литературоведение. В этих областях аргументы часто строятся на основе классификаций, таких как жанр, или более жестких критериев, таких как временной период. Хотя предпринимались попытки ограничить вывод моделей конкретными областями с помощью тонкой настройки или редактирования моделей, мы утверждаем, что единственной истинной гарантией является предварительное обучение в ограниченной области — как правило, ресурсоемкий процесс, требующий значительных объемов данных и вычислительных мощностей. Мы показываем, что эффективные методы предварительного обучения могут создавать полезные модели на корпусах, которые слишком велики для ручного анализа, но слишком малы для "типичных" подходов с использованием LLM. Мы применяем инновационный конвейер для атрибуции дат, чтобы получить временно сегментированный набор данных из пяти срезов по 10 миллионов слов. Мы обучаем две соответствующие группы из пяти моделей на этих сегментах корпуса: одну с использованием эффективного предварительного обучения, а другую — с эффективной тонкой настройкой модели Llama3-8B. Мы обнаруживаем, что модели, прошедшие предварительное обучение, обучаются быстрее, чем базовые модели с тонкой настройкой, и лучше учитывают исторические разделения нашего корпуса. Акцент на скорости и точности, а не на аисторической всеобъемлемости, позволяет разработать ряд новых подходов к обнаружению и проверке гипотез в наших целевых областях. Используя диахроническую лингвистику в качестве тестовой площадки, мы показываем, что наш метод позволяет обнаруживать разнообразные явления, включая массовые лексические изменения, нелексические (грамматические и морфологические) изменения, а также введение и устаревание значений слов. Мы предоставляем готовый к использованию конвейер, который позволяет адаптировать наш подход к другим целевым областям с минимальными изменениями.
English
Large language models (LLMs) have shown potential as tools for scientific discovery. This has engendered growing interest in their use in humanistic disciplines, such as historical linguistics and literary studies. These fields often construct arguments on the basis of delineations like genre, or more inflexibly, time period. Although efforts have been made to restrict inference to specific domains via fine-tuning or model editing, we posit that the only true guarantee is domain-restricted pretraining -- typically, a data- and compute-expensive proposition. We show that efficient pretraining techniques can produce useful models over corpora too large for easy manual inspection but too small for "typical" LLM approaches. We employ a novel date-attribution pipeline in order to obtain a temporally-segmented dataset of five 10-million-word slices. We train two corresponding five-model batteries over these corpus segments, efficient pretraining and Llama3-8B parameter efficiently finetuned. We find that the pretrained models are faster to train than the finetuned baselines and that they better respect the historical divisions of our corpus. Emphasizing speed and precision over a-historical comprehensiveness enables a number of novel approaches to hypothesis discovery and testing in our target fields. Taking up diachronic linguistics as a testbed, we show that our method enables the detection of a diverse set of phenomena, including en masse lexical change, non-lexical (grammatical and morphological) change, and word sense introduction/obsolescence. We provide a ready-to-use pipeline that allows extension of our approach to other target fields with only minimal adaptation.

Summary

AI-Generated Summary

PDF62April 10, 2025