Sull'acquisizione di rappresentazioni grammaticali condivise nei modelli linguistici bilingui
On the Acquisition of Shared Grammatical Representations in Bilingual Language Models
March 5, 2025
Autori: Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen
cs.AI
Abstract
Mentre il trasferimento crosslinguistico è cruciale per le capacità multilingue dei modelli linguistici contemporanei, il modo in cui avviene non è ben compreso. In questo articolo, ci chiediamo cosa succede a un modello linguistico monolingue quando inizia a essere addestrato su una seconda lingua. Nello specifico, addestriamo piccoli modelli bilingue per i quali controlliamo la quantità di dati per ciascuna lingua e l'ordine di esposizione alle lingue. Per trovare prove di rappresentazioni multilingue condivise, ci rivolgiamo al priming strutturale, un metodo utilizzato per studiare le rappresentazioni grammaticali negli esseri umani. In primo luogo, replichiamo i risultati precedenti sul priming strutturale crosslinguistico e scopriamo che, dopo aver controllato la quantità di dati di addestramento e l'esposizione alle lingue, ci sono effetti asimmetrici tra coppie di lingue e direzioni. Sosteniamo che questa asimmetria potrebbe influenzare le ipotesi sugli effetti del priming strutturale negli esseri umani. Troviamo inoltre che gli effetti del priming strutturale sono meno robusti per coppie di lingue meno simili, evidenziando potenziali limiti del trasferimento crosslinguistico e delle rappresentazioni condivise per lingue tipologicamente diverse.
English
While crosslingual transfer is crucial to contemporary language models'
multilingual capabilities, how it occurs is not well understood. In this paper,
we ask what happens to a monolingual language model when it begins to be
trained on a second language. Specifically, we train small bilingual models for
which we control the amount of data for each language and the order of language
exposure. To find evidence of shared multilingual representations, we turn to
structural priming, a method used to study grammatical representations in
humans. We first replicate previous crosslingual structural priming results and
find that after controlling for training data quantity and language exposure,
there are asymmetrical effects across language pairs and directions. We argue
that this asymmetry may shape hypotheses about human structural priming
effects. We also find that structural priming effects are less robust for less
similar language pairs, highlighting potential limitations of crosslingual
transfer learning and shared representations for typologically diverse
languages.Summary
AI-Generated Summary