ChatPaper.aiChatPaper

Babel: Modelli Linguistici Multilingue su Larga Scala che Supportano Oltre il 90% dei Parlanti Globali

Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

March 2, 2025
Autori: Yiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato l'elaborazione del linguaggio naturale (NLP), tuttavia gli LLM multilingue open-source rimangono scarsi, con i modelli esistenti spesso limitati nella copertura linguistica. Tali modelli tendono a privilegiare le lingue ben supportate, mentre le lingue ampiamente parlate ma con risorse limitate vengono spesso trascurate. Per affrontare questa disparità, presentiamo Babel, un LLM multilingue open-source che copre le prime 25 lingue per numero di parlanti, supporta oltre il 90% della popolazione globale e include molte lingue trascurate da altri LLM multilingue open-source. A differenza degli approcci tradizionali di pre-addestramento continuo, Babel espande il numero di parametri attraverso una tecnica di estensione degli strati che eleva il limite prestazionale del modello. Introduciamo due varianti: Babel-9B, progettato per un'inferenza e un fine-tuning efficienti, e Babel-83B, che stabilisce un nuovo standard per gli LLM multilingue open-source. Valutazioni estensive su compiti multilingue dimostrano la sua superiorità rispetto a LLM open-source di dimensioni comparabili. Inoltre, utilizzando dataset open-source per il fine-tuning supervisionato, Babel raggiunge prestazioni notevoli, con Babel-9B-Chat che si distingue tra gli LLM di dimensioni pari a 10B e Babel-83B-Chat che stabilisce un nuovo standard per i compiti multilingue, raggiungendo lo stesso livello dei modelli commerciali.
English
Large language models (LLMs) have revolutionized natural language processing (NLP), yet open-source multilingual LLMs remain scarce, with existing models often limited in language coverage. Such models typically prioritize well-resourced languages, while widely spoken but under-resourced languages are often overlooked. To address this disparity, we introduce Babel, an open multilingual LLM that covers the top 25 languages by number of speakers, supports over 90% of the global population, and includes many languages neglected by other open multilingual LLMs. Unlike traditional continue pretraining approaches, Babel expands its parameter count through a layer extension technique that elevates Babel's performance ceiling. We introduce two variants: Babel-9B, designed for efficient inference and fine-tuning, and Babel-83B, which sets a new standard for open multilingual LLMs. Extensive evaluations on multilingual tasks demonstrate its superior performance compared to open LLMs of comparable size. In addition, using open-source supervised fine-tuning datasets, Babel achieves remarkable performance, with Babel-9B-Chat leading among 10B-sized LLMs and Babel-83B-Chat setting a new standard for multilingual tasks, reaching the same level of commercial models.
PDF653March 6, 2025