Sur l'acquisition de représentations grammaticales partagées dans les modèles de langage bilingues
On the Acquisition of Shared Grammatical Representations in Bilingual Language Models
March 5, 2025
Auteurs: Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen
cs.AI
Résumé
Bien que le transfert translinguistique soit crucial pour les capacités multilingues des modèles de langage contemporains, son mécanisme reste mal compris. Dans cet article, nous examinons ce qui arrive à un modèle de langage monolingue lorsqu'il commence à être entraîné sur une deuxième langue. Plus précisément, nous entraînons de petits modèles bilingues pour lesquels nous contrôlons la quantité de données pour chaque langue et l'ordre d'exposition aux langues. Pour trouver des preuves de représentations multilingues partagées, nous nous tournons vers l'amorçage structurel, une méthode utilisée pour étudier les représentations grammaticales chez les humains. Nous reproduisons d'abord les résultats précédents sur l'amorçage structurel translinguistique et constatons qu'après avoir contrôlé la quantité de données d'entraînement et l'exposition aux langues, il existe des effets asymétriques entre les paires de langues et les directions. Nous soutenons que cette asymétrie pourrait influencer les hypothèses sur les effets d'amorçage structurel chez les humains. Nous observons également que les effets d'amorçage structurel sont moins robustes pour les paires de langues moins similaires, soulignant les limites potentielles de l'apprentissage par transfert translinguistique et des représentations partagées pour des langues typologiquement diverses.
English
While crosslingual transfer is crucial to contemporary language models'
multilingual capabilities, how it occurs is not well understood. In this paper,
we ask what happens to a monolingual language model when it begins to be
trained on a second language. Specifically, we train small bilingual models for
which we control the amount of data for each language and the order of language
exposure. To find evidence of shared multilingual representations, we turn to
structural priming, a method used to study grammatical representations in
humans. We first replicate previous crosslingual structural priming results and
find that after controlling for training data quantity and language exposure,
there are asymmetrical effects across language pairs and directions. We argue
that this asymmetry may shape hypotheses about human structural priming
effects. We also find that structural priming effects are less robust for less
similar language pairs, highlighting potential limitations of crosslingual
transfer learning and shared representations for typologically diverse
languages.Summary
AI-Generated Summary