多言語エンコーダはあなたが思う以上に多くの知識を持つ:共有重みによる極低リソース言語の事前学習
Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages
February 15, 2025
著者: Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI
要旨
XLM-Rのような多言語言語モデルはNLPにおける多言語化を進展させてきたが、極めてリソースの少ない言語では依然として性能が低い。この状況は、LLaMAやQwenのような現代の大規模言語モデルがXLM-Rよりもはるかに少ない言語しかサポートしておらず、世界の多くの言語においてテキスト生成モデルが存在しないという事実によってさらに悪化している。この課題に取り組むため、我々は極めてリソースの少ない言語におけるテキスト生成のために多言語エンコーダを適応させる新しいフレームワークを提案する。エンコーダとデコーダ間の重みを再利用することで、このフレームワークはモデルがエンコーダの学習された意味空間を活用できるようにし、リソースの少ない言語において効率的な学習と効果的な汎化を可能にする。このフレームワークを4つの中国少数民族言語に適用し、XLM-SWCMを提示し、より大規模なモデルと比較しても様々な下流タスクで優れた性能を示すことを実証する。
English
While multilingual language models like XLM-R have advanced multilingualism
in NLP, they still perform poorly in extremely low-resource languages. This
situation is exacerbated by the fact that modern LLMs such as LLaMA and Qwen
support far fewer languages than XLM-R, making text generation models
non-existent for many languages in the world. To tackle this challenge, we
propose a novel framework for adapting multilingual encoders to text generation
in extremely low-resource languages. By reusing the weights between the encoder
and the decoder, our framework allows the model to leverage the learned
semantic space of the encoder, enabling efficient learning and effective
generalization in low-resource languages. Applying this framework to four
Chinese minority languages, we present XLM-SWCM, and demonstrate its superior
performance on various downstream tasks even when compared with much larger
models.Summary
AI-Generated Summary