ChatPaper.aiChatPaper

Il Codificatore Multilingue Sa Più di Quanto Tu Creda: Pretraining con Pesi Condivisi per Lingue Estremamente Povere di Risorse

Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages

February 15, 2025
Autori: Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI

Abstract

Sebbene i modelli linguistici multilingue come XLM-R abbiano fatto progredire il multilinguismo nell'elaborazione del linguaggio naturale (NLP), continuano a ottenere prestazioni scarse nelle lingue con risorse estremamente limitate. Questa situazione è ulteriormente aggravata dal fatto che i moderni modelli linguistici di grandi dimensioni (LLM) come LLaMA e Qwen supportano un numero di lingue molto inferiore rispetto a XLM-R, rendendo i modelli di generazione del testo inesistenti per molte lingue del mondo. Per affrontare questa sfida, proponiamo un nuovo framework per adattare gli encoder multilingue alla generazione di testo in lingue con risorse estremamente limitate. Riusando i pesi tra l'encoder e il decoder, il nostro framework consente al modello di sfruttare lo spazio semantico appreso dall'encoder, permettendo un apprendimento efficiente e una generalizzazione efficace nelle lingue a bassa risorsa. Applicando questo framework a quattro lingue minoritarie cinesi, presentiamo XLM-SWCM e ne dimostriamo le prestazioni superiori in vari task downstream, anche rispetto a modelli molto più grandi.
English
While multilingual language models like XLM-R have advanced multilingualism in NLP, they still perform poorly in extremely low-resource languages. This situation is exacerbated by the fact that modern LLMs such as LLaMA and Qwen support far fewer languages than XLM-R, making text generation models non-existent for many languages in the world. To tackle this challenge, we propose a novel framework for adapting multilingual encoders to text generation in extremely low-resource languages. By reusing the weights between the encoder and the decoder, our framework allows the model to leverage the learned semantic space of the encoder, enabling efficient learning and effective generalization in low-resource languages. Applying this framework to four Chinese minority languages, we present XLM-SWCM, and demonstrate its superior performance on various downstream tasks even when compared with much larger models.

Summary

AI-Generated Summary

PDF22February 19, 2025