ChatPaper.aiChatPaper

Over de verwerving van gedeelde grammaticale representaties in tweetalige taalmodelen

On the Acquisition of Shared Grammatical Representations in Bilingual Language Models

March 5, 2025
Auteurs: Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen
cs.AI

Samenvatting

Hoewel crosslinguale transfer cruciaal is voor de meertalige capaciteiten van hedendaagse taalmodelen, is het nog niet goed begrepen hoe dit precies plaatsvindt. In dit artikel onderzoeken we wat er gebeurt met een eentalig taalmodel wanneer het begint te worden getraind op een tweede taal. Specifiek trainen we kleine tweetalige modellen waarbij we de hoeveelheid data voor elke taal en de volgorde van taalblootstelling controleren. Om bewijs te vinden van gedeelde meertalige representaties, maken we gebruik van structurele priming, een methode die wordt gebruikt om grammaticale representaties bij mensen te bestuderen. We repliceren eerst eerdere resultaten van crosslinguale structurele priming en ontdekken dat, na controle voor de hoeveelheid trainingsdata en taalblootstelling, er asymmetrische effecten zijn tussen taalparen en richtingen. We stellen dat deze asymmetrie hypotheses over menselijke structurele priming-effecten kan vormen. We vinden ook dat structurele priming-effecten minder robuust zijn voor minder vergelijkbare taalparen, wat potentiële beperkingen van crosslinguale transfer learning en gedeelde representaties voor typologisch diverse talen benadrukt.
English
While crosslingual transfer is crucial to contemporary language models' multilingual capabilities, how it occurs is not well understood. In this paper, we ask what happens to a monolingual language model when it begins to be trained on a second language. Specifically, we train small bilingual models for which we control the amount of data for each language and the order of language exposure. To find evidence of shared multilingual representations, we turn to structural priming, a method used to study grammatical representations in humans. We first replicate previous crosslingual structural priming results and find that after controlling for training data quantity and language exposure, there are asymmetrical effects across language pairs and directions. We argue that this asymmetry may shape hypotheses about human structural priming effects. We also find that structural priming effects are less robust for less similar language pairs, highlighting potential limitations of crosslingual transfer learning and shared representations for typologically diverse languages.

Summary

AI-Generated Summary

PDF31March 7, 2025