ChatPaper.aiChatPaper

Sobre a Aquisição de Representações Gramaticais Compartilhadas em Modelos de Linguagem Bilíngues

On the Acquisition of Shared Grammatical Representations in Bilingual Language Models

March 5, 2025
Autores: Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen
cs.AI

Resumo

Embora a transferência crosslingual seja crucial para as capacidades multilíngues dos modelos de linguagem contemporâneos, como ela ocorre ainda não é bem compreendido. Neste artigo, investigamos o que acontece com um modelo de linguagem monolíngue quando ele começa a ser treinado em um segundo idioma. Especificamente, treinamos pequenos modelos bilíngues para os quais controlamos a quantidade de dados para cada idioma e a ordem de exposição aos idiomas. Para encontrar evidências de representações multilíngues compartilhadas, recorremos ao priming estrutural, um método usado para estudar representações gramaticais em humanos. Primeiro, replicamos resultados anteriores de priming estrutural crosslingual e descobrimos que, após controlar a quantidade de dados de treinamento e a exposição aos idiomas, há efeitos assimétricos entre pares de idiomas e direções. Argumentamos que essa assimetria pode moldar hipóteses sobre os efeitos de priming estrutural em humanos. Também descobrimos que os efeitos de priming estrutural são menos robustos para pares de idiomas menos semelhantes, destacando possíveis limitações da aprendizagem por transferência crosslingual e das representações compartilhadas para idiomas tipologicamente diversos.
English
While crosslingual transfer is crucial to contemporary language models' multilingual capabilities, how it occurs is not well understood. In this paper, we ask what happens to a monolingual language model when it begins to be trained on a second language. Specifically, we train small bilingual models for which we control the amount of data for each language and the order of language exposure. To find evidence of shared multilingual representations, we turn to structural priming, a method used to study grammatical representations in humans. We first replicate previous crosslingual structural priming results and find that after controlling for training data quantity and language exposure, there are asymmetrical effects across language pairs and directions. We argue that this asymmetry may shape hypotheses about human structural priming effects. We also find that structural priming effects are less robust for less similar language pairs, highlighting potential limitations of crosslingual transfer learning and shared representations for typologically diverse languages.

Summary

AI-Generated Summary

PDF31March 7, 2025