Über den Erwerb gemeinsamer grammatikalischer Repräsentationen in bilingualen Sprachmodellen

Zusammenfassung

Während der transferübergreifende Sprachtansfer für die multilingualen Fähigkeiten moderner Sprachmodelle entscheidend ist, ist der genaue Mechanismus dahinter noch nicht gut verstanden. In diesem Artikel untersuchen wir, was mit einem monolingualen Sprachmodell geschieht, wenn es beginnt, in einer zweiten Sprache trainiert zu werden. Konkret trainieren wir kleine bilinguale Modelle, bei denen wir die Datenmenge für jede Sprache und die Reihenfolge der Sprachbegegnung kontrollieren. Um Hinweise auf gemeinsame multilinguale Repräsentationen zu finden, greifen wir auf das Konzept des strukturellen Primings zurück, eine Methode, die zur Untersuchung grammatikalischer Repräsentationen bei Menschen verwendet wird. Zunächst replizieren wir frühere Ergebnisse zum transferübergreifenden strukturellen Priming und stellen fest, dass nach der Kontrolle der Trainingsdatenmenge und der Sprachbegegnung asymmetrische Effekte über Sprachpaare und Richtungen hinweg auftreten. Wir argumentieren, dass diese Asymmetrie Hypothesen über menschliche strukturelle Priming-Effekte beeinflussen könnte. Außerdem zeigen wir, dass die strukturellen Priming-Effekte bei weniger ähnlichen Sprachpaaren weniger robust sind, was potenzielle Grenzen des transferübergreifenden Sprachtansferlernens und gemeinsamer Repräsentationen für typologisch unterschiedliche Sprachen verdeutlicht.

English

While crosslingual transfer is crucial to contemporary language models' multilingual capabilities, how it occurs is not well understood. In this paper, we ask what happens to a monolingual language model when it begins to be trained on a second language. Specifically, we train small bilingual models for which we control the amount of data for each language and the order of language exposure. To find evidence of shared multilingual representations, we turn to structural priming, a method used to study grammatical representations in humans. We first replicate previous crosslingual structural priming results and find that after controlling for training data quantity and language exposure, there are asymmetrical effects across language pairs and directions. We argue that this asymmetry may shape hypotheses about human structural priming effects. We also find that structural priming effects are less robust for less similar language pairs, highlighting potential limitations of crosslingual transfer learning and shared representations for typologically diverse languages.

Über den Erwerb gemeinsamer grammatikalischer Repräsentationen in bilingualen Sprachmodellen

On the Acquisition of Shared Grammatical Representations in Bilingual Language Models

Zusammenfassung

Support