Codificador Multilíngue Sabe Mais do que Você Imagina: Pré-treinamento com Pesos Compartilhados para Idiomas de Recursos Extremamente Limitados
Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages
February 15, 2025
Autores: Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI
Resumo
Embora modelos de linguagem multilíngues como o XLM-R tenham avançado o multilinguismo em PLN, eles ainda apresentam desempenho insatisfatório em idiomas extremamente de baixos recursos. Essa situação é agravada pelo fato de que modelos de linguagem modernos, como LLaMA e Qwen, suportam muito menos idiomas do que o XLM-R, tornando os modelos de geração de texto inexistentes para muitas línguas ao redor do mundo. Para enfrentar esse desafio, propomos uma nova estrutura para adaptar codificadores multilíngues à geração de texto em idiomas extremamente de baixos recursos. Ao reutilizar os pesos entre o codificador e o decodificador, nossa estrutura permite que o modelo aproveite o espaço semântico aprendido pelo codificador, possibilitando aprendizado eficiente e generalização eficaz em idiomas de baixos recursos. Aplicando essa estrutura a quatro línguas minoritárias chinesas, apresentamos o XLM-SWCM e demonstramos seu desempenho superior em várias tarefas subsequentes, mesmo quando comparado a modelos muito maiores.
English
While multilingual language models like XLM-R have advanced multilingualism
in NLP, they still perform poorly in extremely low-resource languages. This
situation is exacerbated by the fact that modern LLMs such as LLaMA and Qwen
support far fewer languages than XLM-R, making text generation models
non-existent for many languages in the world. To tackle this challenge, we
propose a novel framework for adapting multilingual encoders to text generation
in extremely low-resource languages. By reusing the weights between the encoder
and the decoder, our framework allows the model to leverage the learned
semantic space of the encoder, enabling efficient learning and effective
generalization in low-resource languages. Applying this framework to four
Chinese minority languages, we present XLM-SWCM, and demonstrate its superior
performance on various downstream tasks even when compared with much larger
models.Summary
AI-Generated Summary