Über den Erwerb gemeinsamer grammatikalischer Repräsentationen in bilingualen Sprachmodellen
On the Acquisition of Shared Grammatical Representations in Bilingual Language Models
March 5, 2025
Autoren: Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen
cs.AI
Zusammenfassung
Während der transferübergreifende Sprachtansfer für die multilingualen Fähigkeiten moderner Sprachmodelle entscheidend ist, ist der genaue Mechanismus dahinter noch nicht gut verstanden. In diesem Artikel untersuchen wir, was mit einem monolingualen Sprachmodell geschieht, wenn es beginnt, in einer zweiten Sprache trainiert zu werden. Konkret trainieren wir kleine bilinguale Modelle, bei denen wir die Datenmenge für jede Sprache und die Reihenfolge der Sprachbegegnung kontrollieren. Um Hinweise auf gemeinsame multilinguale Repräsentationen zu finden, greifen wir auf das Konzept des strukturellen Primings zurück, eine Methode, die zur Untersuchung grammatikalischer Repräsentationen bei Menschen verwendet wird. Zunächst replizieren wir frühere Ergebnisse zum transferübergreifenden strukturellen Priming und stellen fest, dass nach der Kontrolle der Trainingsdatenmenge und der Sprachbegegnung asymmetrische Effekte über Sprachpaare und Richtungen hinweg auftreten. Wir argumentieren, dass diese Asymmetrie Hypothesen über menschliche strukturelle Priming-Effekte beeinflussen könnte. Außerdem zeigen wir, dass die strukturellen Priming-Effekte bei weniger ähnlichen Sprachpaaren weniger robust sind, was potenzielle Grenzen des transferübergreifenden Sprachtansferlernens und gemeinsamer Repräsentationen für typologisch unterschiedliche Sprachen verdeutlicht.
English
While crosslingual transfer is crucial to contemporary language models'
multilingual capabilities, how it occurs is not well understood. In this paper,
we ask what happens to a monolingual language model when it begins to be
trained on a second language. Specifically, we train small bilingual models for
which we control the amount of data for each language and the order of language
exposure. To find evidence of shared multilingual representations, we turn to
structural priming, a method used to study grammatical representations in
humans. We first replicate previous crosslingual structural priming results and
find that after controlling for training data quantity and language exposure,
there are asymmetrical effects across language pairs and directions. We argue
that this asymmetry may shape hypotheses about human structural priming
effects. We also find that structural priming effects are less robust for less
similar language pairs, highlighting potential limitations of crosslingual
transfer learning and shared representations for typologically diverse
languages.Summary
AI-Generated Summary