L'encodeur multilingue en sait plus que vous ne le pensez : prétraitement avec poids partagés pour les langues extrêmement peu dotées
Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages
February 15, 2025
Auteurs: Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI
Résumé
Bien que les modèles de langage multilingues comme XLM-R aient fait progresser le multilinguisme en TAL, leurs performances restent médiocres pour les langues extrêmement peu dotées. Cette situation est exacerbée par le fait que les modèles de langage modernes tels que LLaMA et Qwen prennent en charge bien moins de langues que XLM-R, rendant les modèles de génération de texte inexistants pour de nombreuses langues dans le monde. Pour relever ce défi, nous proposons un nouveau cadre d'adaptation des encodeurs multilingues à la génération de texte pour les langues extrêmement peu dotées. En réutilisant les poids entre l'encodeur et le décodeur, notre cadre permet au modèle d'exploiter l'espace sémantique appris par l'encodeur, favorisant un apprentissage efficace et une généralisation performante pour les langues peu dotées. En appliquant ce cadre à quatre langues minoritaires chinoises, nous présentons XLM-SWCM et démontrons ses performances supérieures sur diverses tâches en aval, même comparé à des modèles beaucoup plus volumineux.
English
While multilingual language models like XLM-R have advanced multilingualism
in NLP, they still perform poorly in extremely low-resource languages. This
situation is exacerbated by the fact that modern LLMs such as LLaMA and Qwen
support far fewer languages than XLM-R, making text generation models
non-existent for many languages in the world. To tackle this challenge, we
propose a novel framework for adapting multilingual encoders to text generation
in extremely low-resource languages. By reusing the weights between the encoder
and the decoder, our framework allows the model to leverage the learned
semantic space of the encoder, enabling efficient learning and effective
generalization in low-resource languages. Applying this framework to four
Chinese minority languages, we present XLM-SWCM, and demonstrate its superior
performance on various downstream tasks even when compared with much larger
models.Summary
AI-Generated Summary