Многоязычный энкодер знает больше, чем вы думаете: Совместное обучение с общими весами для языков с крайне ограниченными ресурсами
Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages
February 15, 2025
Авторы: Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI
Аннотация
Хотя многоязычные языковые модели, такие как XLM-R, значительно продвинули многоязычие в NLP, они по-прежнему демонстрируют низкую производительность на крайне малоресурсных языках. Эта ситуация усугубляется тем, что современные крупные языковые модели, такие как LLaMA и Qwen, поддерживают гораздо меньше языков, чем XLM-R, что делает модели генерации текста недоступными для многих языков мира. Для решения этой проблемы мы предлагаем новый фреймворк для адаптации многоязычных энкодеров к генерации текста на крайне малоресурсных языках. Благодаря повторному использованию весов между энкодером и декодером, наш фреймворк позволяет модели использовать изученное семантическое пространство энкодера, обеспечивая эффективное обучение и качественное обобщение на малоресурсных языках. Применив этот фреймворк к четырем китайским языкам меньшинств, мы представляем XLM-SWCM и демонстрируем его превосходную производительность на различных задачах, даже в сравнении с гораздо более крупными моделями.
English
While multilingual language models like XLM-R have advanced multilingualism
in NLP, they still perform poorly in extremely low-resource languages. This
situation is exacerbated by the fact that modern LLMs such as LLaMA and Qwen
support far fewer languages than XLM-R, making text generation models
non-existent for many languages in the world. To tackle this challenge, we
propose a novel framework for adapting multilingual encoders to text generation
in extremely low-resource languages. By reusing the weights between the encoder
and the decoder, our framework allows the model to leverage the learned
semantic space of the encoder, enabling efficient learning and effective
generalization in low-resource languages. Applying this framework to four
Chinese minority languages, we present XLM-SWCM, and demonstrate its superior
performance on various downstream tasks even when compared with much larger
models.Summary
AI-Generated Summary