Babel: Modelli Linguistici Multilingue su Larga Scala che Supportano Oltre il 90% dei Parlanti Globali
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers
March 2, 2025
Autori: Yiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato l'elaborazione del linguaggio naturale (NLP), tuttavia gli LLM multilingue open-source rimangono scarsi, con i modelli esistenti spesso limitati nella copertura linguistica. Tali modelli tendono a privilegiare le lingue ben supportate, mentre le lingue ampiamente parlate ma con risorse limitate vengono spesso trascurate. Per affrontare questa disparità, presentiamo Babel, un LLM multilingue open-source che copre le prime 25 lingue per numero di parlanti, supporta oltre il 90% della popolazione globale e include molte lingue trascurate da altri LLM multilingue open-source. A differenza degli approcci tradizionali di pre-addestramento continuo, Babel espande il numero di parametri attraverso una tecnica di estensione degli strati che eleva il limite prestazionale del modello. Introduciamo due varianti: Babel-9B, progettato per un'inferenza e un fine-tuning efficienti, e Babel-83B, che stabilisce un nuovo standard per gli LLM multilingue open-source. Valutazioni estensive su compiti multilingue dimostrano la sua superiorità rispetto a LLM open-source di dimensioni comparabili. Inoltre, utilizzando dataset open-source per il fine-tuning supervisionato, Babel raggiunge prestazioni notevoli, con Babel-9B-Chat che si distingue tra gli LLM di dimensioni pari a 10B e Babel-83B-Chat che stabilisce un nuovo standard per i compiti multilingue, raggiungendo lo stesso livello dei modelli commerciali.
English
Large language models (LLMs) have revolutionized natural language processing
(NLP), yet open-source multilingual LLMs remain scarce, with existing models
often limited in language coverage. Such models typically prioritize
well-resourced languages, while widely spoken but under-resourced languages are
often overlooked. To address this disparity, we introduce Babel, an
open multilingual LLM that covers the top 25 languages by number of speakers,
supports over 90% of the global population, and includes many languages
neglected by other open multilingual LLMs. Unlike traditional continue
pretraining approaches, Babel expands its parameter count through a layer
extension technique that elevates Babel's performance ceiling. We introduce two
variants: Babel-9B, designed for efficient inference and
fine-tuning, and Babel-83B, which sets a new standard for open
multilingual LLMs. Extensive evaluations on multilingual tasks demonstrate its
superior performance compared to open LLMs of comparable size. In addition,
using open-source supervised fine-tuning datasets, Babel achieves remarkable
performance, with Babel-9B-Chat leading among 10B-sized LLMs and Babel-83B-Chat
setting a new standard for multilingual tasks, reaching the same level of
commercial models.