이중언어 모델에서 공유 문법 표현의 획득에 관하여
On the Acquisition of Shared Grammatical Representations in Bilingual Language Models
March 5, 2025
저자: Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen
cs.AI
초록
교차언어 전이(Crosslingual transfer)는 현대 언어 모델의 다국어 능력에 있어 핵심적인 요소이지만, 그 발생 메커니즘은 잘 이해되지 않고 있다. 본 논문에서는 단일언어 언어 모델이 제2언어 학습을 시작할 때 어떤 현상이 일어나는지 탐구한다. 구체적으로, 각 언어의 데이터 양과 언어 노출 순서를 통제한 소규모 이중언어 모델을 학습시킨다. 공유된 다국어 표현의 증거를 찾기 위해, 인간의 문법적 표현을 연구하는 데 사용되는 구조적 프라이밍(structural priming) 방법을 활용한다. 먼저, 기존의 교차언어 구조적 프라이밍 결과를 재현하고, 학습 데이터 양과 언어 노출을 통제한 후에도 언어 쌍과 방향에 따라 비대칭적 효과가 나타남을 확인한다. 이러한 비대칭성이 인간의 구조적 프라이밍 효과에 대한 가설을 형성할 수 있음을 주장한다. 또한, 유사성이 낮은 언어 쌍의 경우 구조적 프라이밍 효과가 덜 강력하게 나타나, 유형론적으로 다양한 언어들 간의 교차언어 전이 학습과 공유 표현의 잠재적 한계를 강조한다.
English
While crosslingual transfer is crucial to contemporary language models'
multilingual capabilities, how it occurs is not well understood. In this paper,
we ask what happens to a monolingual language model when it begins to be
trained on a second language. Specifically, we train small bilingual models for
which we control the amount of data for each language and the order of language
exposure. To find evidence of shared multilingual representations, we turn to
structural priming, a method used to study grammatical representations in
humans. We first replicate previous crosslingual structural priming results and
find that after controlling for training data quantity and language exposure,
there are asymmetrical effects across language pairs and directions. We argue
that this asymmetry may shape hypotheses about human structural priming
effects. We also find that structural priming effects are less robust for less
similar language pairs, highlighting potential limitations of crosslingual
transfer learning and shared representations for typologically diverse
languages.Summary
AI-Generated Summary