ChatPaper.aiChatPaper

Mehrsprachiger Encoder weiß mehr, als Sie denken: Gemeinsame Gewichte für das Pretraining von extrem ressourcenarmen Sprachen

Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages

February 15, 2025
Autoren: Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI

Zusammenfassung

Während mehrsprachige Sprachmodelle wie XLM-R die Mehrsprachigkeit in der NLP vorangetrieben haben, schneiden sie in extrem ressourcenarmen Sprachen nach wie vor schlecht ab. Diese Situation wird dadurch verschärft, dass moderne LLMs wie LLaMA und Qwen weitaus weniger Sprachen unterstützen als XLM-R, wodurch Textgenerierungsmodelle für viele Sprachen der Welt nicht existieren. Um diese Herausforderung zu bewältigen, schlagen wir ein neuartiges Framework vor, das mehrsprachige Encoder für die Textgenerierung in extrem ressourcenarmen Sprachen anpasst. Durch die Wiederverwendung der Gewichte zwischen Encoder und Decoder ermöglicht unser Framework dem Modell, den gelernten semantischen Raum des Encoders zu nutzen, was effizientes Lernen und effektive Generalisierung in ressourcenarmen Sprachen ermöglicht. Durch die Anwendung dieses Frameworks auf vier chinesische Minderheitensprachen präsentieren wir XLM-SWCM und demonstrieren dessen überlegene Leistung bei verschiedenen Downstream-Aufgaben, selbst im Vergleich zu wesentlich größeren Modellen.
English
While multilingual language models like XLM-R have advanced multilingualism in NLP, they still perform poorly in extremely low-resource languages. This situation is exacerbated by the fact that modern LLMs such as LLaMA and Qwen support far fewer languages than XLM-R, making text generation models non-existent for many languages in the world. To tackle this challenge, we propose a novel framework for adapting multilingual encoders to text generation in extremely low-resource languages. By reusing the weights between the encoder and the decoder, our framework allows the model to leverage the learned semantic space of the encoder, enabling efficient learning and effective generalization in low-resource languages. Applying this framework to four Chinese minority languages, we present XLM-SWCM, and demonstrate its superior performance on various downstream tasks even when compared with much larger models.

Summary

AI-Generated Summary

PDF22February 19, 2025