Babel: Offene multilinguale Large Language Models, die über 90 % der weltweiten Sprecher abdecken
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers
March 2, 2025
Autoren: Yiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben die natürliche Sprachverarbeitung (NLP) revolutioniert, dennoch bleiben quelloffene mehrsprachige LLMs rar, wobei bestehende Modelle oft in ihrer Sprachabdeckung begrenzt sind. Solche Modelle priorisieren typischerweise gut ausgestattete Sprachen, während weit verbreitete, aber unterversorgte Sprachen häufig übersehen werden. Um diese Disparität zu beheben, stellen wir Babel vor, ein quelloffenes mehrsprachiges LLM, das die 25 meistgesprochenen Sprachen abdeckt, über 90 % der Weltbevölkerung unterstützt und viele Sprachen einschließt, die von anderen quelloffenen mehrsprachigen LLMs vernachlässigt werden. Im Gegensatz zu traditionellen Ansätzen des fortgesetzten Vortrainings erweitert Babel seine Parameteranzahl durch eine Schichtenerweiterungstechnik, die die Leistungsgrenze von Babel erhöht. Wir führen zwei Varianten ein: Babel-9B, das für effiziente Inferenz und Feinabstimmung konzipiert ist, und Babel-83B, das einen neuen Maßstab für quelloffene mehrsprachige LLMs setzt. Umfangreiche Bewertungen in mehrsprachigen Aufgaben demonstrieren seine überlegene Leistung im Vergleich zu quelloffenen LLMs vergleichbarer Größe. Darüber hinaus erreicht Babel mit quelloffenen, überwachten Feinabstimmungsdatensätzen bemerkenswerte Leistungen, wobei Babel-9B-Chat unter 10B-großen LLMs führend ist und Babel-83B-Chat einen neuen Standard für mehrsprachige Aufgaben setzt und das Niveau kommerzieller Modelle erreicht.
English
Large language models (LLMs) have revolutionized natural language processing
(NLP), yet open-source multilingual LLMs remain scarce, with existing models
often limited in language coverage. Such models typically prioritize
well-resourced languages, while widely spoken but under-resourced languages are
often overlooked. To address this disparity, we introduce Babel, an
open multilingual LLM that covers the top 25 languages by number of speakers,
supports over 90% of the global population, and includes many languages
neglected by other open multilingual LLMs. Unlike traditional continue
pretraining approaches, Babel expands its parameter count through a layer
extension technique that elevates Babel's performance ceiling. We introduce two
variants: Babel-9B, designed for efficient inference and
fine-tuning, and Babel-83B, which sets a new standard for open
multilingual LLMs. Extensive evaluations on multilingual tasks demonstrate its
superior performance compared to open LLMs of comparable size. In addition,
using open-source supervised fine-tuning datasets, Babel achieves remarkable
performance, with Babel-9B-Chat leading among 10B-sized LLMs and Babel-83B-Chat
setting a new standard for multilingual tasks, reaching the same level of
commercial models.Summary
AI-Generated Summary