バイリンガル言語モデルにおける共有文法表現の獲得について
On the Acquisition of Shared Grammatical Representations in Bilingual Language Models
March 5, 2025
著者: Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen
cs.AI
要旨
クロスリンガル転移は現代の言語モデルの多言語能力にとって重要であるが、その発生メカニズムは十分に理解されていない。本論文では、単一言語モデルが第二言語の訓練を開始した際に何が起こるかを探る。具体的には、各言語のデータ量と言語接触の順序を制御した小規模な二言語モデルを訓練する。共有された多言語表現の証拠を見つけるため、人間の文法表現を研究するために用いられる構造的プライミングという手法を採用する。まず、先行研究のクロスリンガル構造的プライミングの結果を再現し、訓練データ量と言語接触を制御した後、言語ペアと方向性に非対称的な効果が現れることを明らかにする。この非対称性は、人間の構造的プライミング効果に関する仮説を形成する可能性があると論じる。また、類似性の低い言語ペアでは構造的プライミング効果が弱くなることを発見し、類型論的に多様な言語におけるクロスリンガル転移学習と共有表現の潜在的な限界を浮き彫りにする。
English
While crosslingual transfer is crucial to contemporary language models'
multilingual capabilities, how it occurs is not well understood. In this paper,
we ask what happens to a monolingual language model when it begins to be
trained on a second language. Specifically, we train small bilingual models for
which we control the amount of data for each language and the order of language
exposure. To find evidence of shared multilingual representations, we turn to
structural priming, a method used to study grammatical representations in
humans. We first replicate previous crosslingual structural priming results and
find that after controlling for training data quantity and language exposure,
there are asymmetrical effects across language pairs and directions. We argue
that this asymmetry may shape hypotheses about human structural priming
effects. We also find that structural priming effects are less robust for less
similar language pairs, highlighting potential limitations of crosslingual
transfer learning and shared representations for typologically diverse
languages.Summary
AI-Generated Summary