역사적 언어 변화 탐색을 위한 언어 모델 사전 학습
Pretraining Language Models for Diachronic Linguistic Change Discovery
April 7, 2025
저자: Elisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner
cs.AI
초록
대규모 언어 모델(LLM)은 과학적 발견을 위한 도구로서의 잠재력을 보여주고 있습니다. 이는 역사 언어학 및 문학 연구와 같은 인문학 분야에서의 활용에 대한 관심을 증가시키고 있습니다. 이러한 분야들은 종종 장르나 더 엄격하게는 시대 구분과 같은 기준을 바탕으로 논증을 구성합니다. 특정 도메인으로 추론을 제한하기 위해 미세 조정(fine-tuning)이나 모델 편집(model editing)과 같은 노력이 이루어져 왔지만, 우리는 도메인 제한 사전 학습(domain-restricted pretraining)만이 유일한 진정한 보장이라고 주장합니다. 이는 일반적으로 데이터와 컴퓨팅 자원이 많이 소요되는 작업입니다.
우리는 효율적인 사전 학습 기법이 수동으로 쉽게 검사하기에는 너무 크지만 "전형적인" LLM 접근 방식에는 너무 작은 코퍼스에 대해 유용한 모델을 생성할 수 있음을 보여줍니다. 우리는 시간적으로 분할된 5개의 1천만 단어 조각으로 구성된 데이터셋을 얻기 위해 새로운 날짜 속성 파이프라인을 사용합니다. 이 코퍼스 세그먼트에 대해 두 개의 5모델 배터리를 학습시킵니다: 효율적인 사전 학습과 Llama3-8B 파라미터를 효율적으로 미세 조정한 모델입니다.
우리는 사전 학습된 모델이 미세 조정된 기준선보다 학습 속도가 빠르며, 코퍼스의 역사적 구분을 더 잘 준수한다는 것을 발견했습니다. 역사적 포괄성보다 속도와 정밀도를 강조함으로써 우리의 목표 분야에서 가설 발견 및 검증을 위한 여러 새로운 접근 방식을 가능하게 합니다. 통시 언어학(diachronic linguistics)을 테스트베드로 삼아, 우리의 방법이 대규모 어휘 변화, 비어휘적(문법적 및 형태론적) 변화, 단어 의미 도입/사용 중단과 같은 다양한 현상을 탐지할 수 있음을 보여줍니다. 우리는 최소한의 적응만으로도 다른 목표 분야로 우리의 접근 방식을 확장할 수 있는 즉시 사용 가능한 파이프라인을 제공합니다.
English
Large language models (LLMs) have shown potential as tools for scientific
discovery. This has engendered growing interest in their use in humanistic
disciplines, such as historical linguistics and literary studies. These fields
often construct arguments on the basis of delineations like genre, or more
inflexibly, time period. Although efforts have been made to restrict inference
to specific domains via fine-tuning or model editing, we posit that the only
true guarantee is domain-restricted pretraining -- typically, a data- and
compute-expensive proposition.
We show that efficient pretraining techniques can produce useful models over
corpora too large for easy manual inspection but too small for "typical" LLM
approaches. We employ a novel date-attribution pipeline in order to obtain a
temporally-segmented dataset of five 10-million-word slices. We train two
corresponding five-model batteries over these corpus segments, efficient
pretraining and Llama3-8B parameter efficiently finetuned.
We find that the pretrained models are faster to train than the finetuned
baselines and that they better respect the historical divisions of our corpus.
Emphasizing speed and precision over a-historical comprehensiveness enables a
number of novel approaches to hypothesis discovery and testing in our target
fields. Taking up diachronic linguistics as a testbed, we show that our method
enables the detection of a diverse set of phenomena, including en masse lexical
change, non-lexical (grammatical and morphological) change, and word sense
introduction/obsolescence. We provide a ready-to-use pipeline that allows
extension of our approach to other target fields with only minimal adaptation.Summary
AI-Generated Summary