Adattamento su larga scala multilingue di modelli linguistici di grandi dimensioni utilizzando dati di traduzione bilingue

Abstract

Questo articolo indaga una decisione progettuale cruciale nella pratica del pre-addestramento continuo massivamente multilingue: l'inclusione di dati paralleli. Nello specifico, studiamo l'impatto dei dati di traduzione bilingue per l'adattamento linguistico massivamente multilingue della famiglia di modelli Llama3 a 500 lingue. A tal fine, costruiamo il corpus di traduzione bilingue MaLA, contenente dati provenienti da oltre 2.500 coppie di lingue. Successivamente, sviluppiamo la suite EMMA-500 Llama 3 di quattro modelli massivamente multilingue – pre-addestrati in modo continuo a partire dai modelli base della famiglia Llama 3 su un mix di dati diversificati fino a 671 miliardi di token – ed esploriamo l'effetto del pre-addestramento continuo con o senza dati di traduzione bilingue. Una valutazione completa su 7 task e 12 benchmark dimostra che i dati bilingue tendono a migliorare il trasferimento linguistico e le prestazioni, in particolare per le lingue a bassa risorsa. Rendiamo open-source il corpus MaLA, gli artefatti della suite EMMA-500 Llama 3, il codice e le generazioni dei modelli.

English

This paper investigates a critical design decision in the practice of massively multilingual continual pre-training -- the inclusion of parallel data. Specifically, we study the impact of bilingual translation data for massively multilingual language adaptation of the Llama3 family of models to 500 languages. To this end, we construct the MaLA bilingual translation corpus, containing data from more than 2,500 language pairs. Subsequently, we develop the EMMA-500 Llama 3 suite of four massively multilingual models -- continually pre-trained from the Llama 3 family of base models extensively on diverse data mixes up to 671B tokens -- and explore the effect of continual pre-training with or without bilingual translation data. Comprehensive evaluation across 7 tasks and 12 benchmarks demonstrates that bilingual data tends to enhance language transfer and performance, particularly for low-resource languages. We open-source the MaLA corpus, EMMA-500 Llama 3 suite artefacts, code, and model generations.

Adattamento su larga scala multilingue di modelli linguistici di grandi dimensioni utilizzando dati di traduzione bilingue

Massively Multilingual Adaptation of Large Language Models Using Bilingual Translation Data

Abstract

Support