Meertalige Encoder Weet Meer dan Je Denkt: Gedeelde Gewichten Pretraining voor Extreem Taalarme Talen
Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages
February 15, 2025
Auteurs: Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI
Samenvatting
Hoewel meertalige taalmodelen zoals XLM-R vooruitgang hebben geboekt op het gebied van meertaligheid in NLP, presteren ze nog steeds slecht in extreem laag-resource talen. Deze situatie wordt verergerd door het feit dat moderne grote taalmodelen zoals LLaMA en Qwen veel minder talen ondersteunen dan XLM-R, waardoor tekstgeneratiemodellen voor veel talen in de wereld niet bestaan. Om deze uitdaging aan te pakken, stellen we een nieuw raamwerk voor voor het aanpassen van meertalige encoders aan tekstgeneratie in extreem laag-resource talen. Door de gewichten tussen de encoder en de decoder te hergebruiken, stelt ons raamwerk het model in staat om gebruik te maken van de geleerde semantische ruimte van de encoder, wat efficiënt leren en effectieve generalisatie in laag-resource talen mogelijk maakt. Door dit raamwerk toe te passen op vier Chinese minderheidstalen, presenteren we XLM-SWCM en demonstreren we de superieure prestaties op verschillende downstream taken, zelfs in vergelijking met veel grotere modellen.
English
While multilingual language models like XLM-R have advanced multilingualism
in NLP, they still perform poorly in extremely low-resource languages. This
situation is exacerbated by the fact that modern LLMs such as LLaMA and Qwen
support far fewer languages than XLM-R, making text generation models
non-existent for many languages in the world. To tackle this challenge, we
propose a novel framework for adapting multilingual encoders to text generation
in extremely low-resource languages. By reusing the weights between the encoder
and the decoder, our framework allows the model to leverage the learned
semantic space of the encoder, enabling efficient learning and effective
generalization in low-resource languages. Applying this framework to four
Chinese minority languages, we present XLM-SWCM, and demonstrate its superior
performance on various downstream tasks even when compared with much larger
models.Summary
AI-Generated Summary