Adattamento su larga scala multilingue di modelli linguistici di grandi dimensioni utilizzando dati di traduzione bilingue
Massively Multilingual Adaptation of Large Language Models Using Bilingual Translation Data
May 31, 2025
Autori: Shaoxiong Ji, Zihao Li, Jaakko Paavola, Indraneil Paul, Hengyu Luo, Jörg Tiedemann
cs.AI
Abstract
Questo articolo indaga una decisione progettuale cruciale nella pratica del pre-addestramento continuo massivamente multilingue: l'inclusione di dati paralleli. Nello specifico, studiamo l'impatto dei dati di traduzione bilingue per l'adattamento linguistico massivamente multilingue della famiglia di modelli Llama3 a 500 lingue. A tal fine, costruiamo il corpus di traduzione bilingue MaLA, contenente dati provenienti da oltre 2.500 coppie di lingue. Successivamente, sviluppiamo la suite EMMA-500 Llama 3 di quattro modelli massivamente multilingue – pre-addestrati in modo continuo a partire dai modelli base della famiglia Llama 3 su un mix di dati diversificati fino a 671 miliardi di token – ed esploriamo l'effetto del pre-addestramento continuo con o senza dati di traduzione bilingue. Una valutazione completa su 7 task e 12 benchmark dimostra che i dati bilingue tendono a migliorare il trasferimento linguistico e le prestazioni, in particolare per le lingue a bassa risorsa. Rendiamo open-source il corpus MaLA, gli artefatti della suite EMMA-500 Llama 3, il codice e le generazioni dei modelli.
English
This paper investigates a critical design decision in the practice of
massively multilingual continual pre-training -- the inclusion of parallel
data. Specifically, we study the impact of bilingual translation data for
massively multilingual language adaptation of the Llama3 family of models to
500 languages. To this end, we construct the MaLA bilingual translation corpus,
containing data from more than 2,500 language pairs. Subsequently, we develop
the EMMA-500 Llama 3 suite of four massively multilingual models -- continually
pre-trained from the Llama 3 family of base models extensively on diverse data
mixes up to 671B tokens -- and explore the effect of continual pre-training
with or without bilingual translation data. Comprehensive evaluation across 7
tasks and 12 benchmarks demonstrates that bilingual data tends to enhance
language transfer and performance, particularly for low-resource languages. We
open-source the MaLA corpus, EMMA-500 Llama 3 suite artefacts, code, and model
generations.