El Codificador Multilingüe Sabe Más de lo que Crees: Pretrenamiento con Pesos Compartidos para Lenguajes de Recursos Extremadamente Limitados
Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages
February 15, 2025
Autores: Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI
Resumen
Si bien los modelos de lenguaje multilingüe como XLM-R han avanzado el multilingüismo en el PLN, aún tienen un rendimiento deficiente en idiomas con recursos extremadamente limitados. Esta situación se ve agravada por el hecho de que los modelos de lenguaje modernos (LLMs) como LLaMA y Qwen admiten muchos menos idiomas que XLM-R, lo que hace que los modelos de generación de texto sean inexistentes para muchos idiomas del mundo. Para abordar este desafío, proponemos un marco novedoso para adaptar codificadores multilingües a la generación de texto en idiomas con recursos extremadamente limitados. Al reutilizar los pesos entre el codificador y el decodificador, nuestro marco permite que el modelo aproveche el espacio semántico aprendido por el codificador, facilitando un aprendizaje eficiente y una generalización efectiva en idiomas de bajos recursos. Aplicando este marco a cuatro lenguas minoritarias chinas, presentamos XLM-SWCM y demostramos su rendimiento superior en diversas tareas posteriores, incluso en comparación con modelos mucho más grandes.
English
While multilingual language models like XLM-R have advanced multilingualism
in NLP, they still perform poorly in extremely low-resource languages. This
situation is exacerbated by the fact that modern LLMs such as LLaMA and Qwen
support far fewer languages than XLM-R, making text generation models
non-existent for many languages in the world. To tackle this challenge, we
propose a novel framework for adapting multilingual encoders to text generation
in extremely low-resource languages. By reusing the weights between the encoder
and the decoder, our framework allows the model to leverage the learned
semantic space of the encoder, enabling efficient learning and effective
generalization in low-resource languages. Applying this framework to four
Chinese minority languages, we present XLM-SWCM, and demonstrate its superior
performance on various downstream tasks even when compared with much larger
models.Summary
AI-Generated Summary