Babel: Open Multilingual Large Language Models die meer dan 90% van de wereldwijde sprekers bedienen
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers
March 2, 2025
Auteurs: Yiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben een revolutie teweeggebracht in natuurlijke taalverwerking (NLP), maar open-source meertalige LLMs blijven schaars, waarbij bestaande modellen vaak beperkt zijn in taaldekking. Dergelijke modellen geven meestal prioriteit aan goed ondersteunde talen, terwijl veel gesproken maar onderbedeelde talen vaak over het hoofd worden gezien. Om deze ongelijkheid aan te pakken, introduceren we Babel, een open meertalig LLM dat de top 25 talen qua aantal sprekers bestrijkt, meer dan 90% van de wereldbevolking ondersteunt, en veel talen omvat die door andere open meertalige LLMs worden verwaarloosd. In tegenstelling tot traditionele voortgezette voorafgaande trainingsbenaderingen, breidt Babel zijn parameteraantal uit via een laaguitbreidingstechniek die de prestatiecapaciteit van Babel verhoogt. We introduceren twee varianten: Babel-9B, ontworpen voor efficiënte inferentie en fine-tuning, en Babel-83B, dat een nieuwe standaard zet voor open meertalige LLMs. Uitgebreide evaluaties op meertalige taken tonen de superieure prestaties aan in vergelijking met open LLMs van vergelijkbare grootte. Bovendien bereikt Babel, met behulp van open-source begeleide fine-tuning datasets, opmerkelijke prestaties, waarbij Babel-9B-Chat de leiding neemt onder 10B-grote LLMs en Babel-83B-Chat een nieuwe standaard zet voor meertalige taken, en hetzelfde niveau bereikt als commerciële modellen.
English
Large language models (LLMs) have revolutionized natural language processing
(NLP), yet open-source multilingual LLMs remain scarce, with existing models
often limited in language coverage. Such models typically prioritize
well-resourced languages, while widely spoken but under-resourced languages are
often overlooked. To address this disparity, we introduce Babel, an
open multilingual LLM that covers the top 25 languages by number of speakers,
supports over 90% of the global population, and includes many languages
neglected by other open multilingual LLMs. Unlike traditional continue
pretraining approaches, Babel expands its parameter count through a layer
extension technique that elevates Babel's performance ceiling. We introduce two
variants: Babel-9B, designed for efficient inference and
fine-tuning, and Babel-83B, which sets a new standard for open
multilingual LLMs. Extensive evaluations on multilingual tasks demonstrate its
superior performance compared to open LLMs of comparable size. In addition,
using open-source supervised fine-tuning datasets, Babel achieves remarkable
performance, with Babel-9B-Chat leading among 10B-sized LLMs and Babel-83B-Chat
setting a new standard for multilingual tasks, reaching the same level of
commercial models.Summary
AI-Generated Summary