Babel: Modelos de Linguagem Multilíngues de Grande Escala que Atendem a Mais de 90% dos Falantes Globais
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers
March 2, 2025
Autores: Yiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) revolucionaram o processamento de linguagem natural (PLN), mas os LLMs multilíngues de código aberto ainda são escassos, com os modelos existentes frequentemente limitados em cobertura de idiomas. Esses modelos geralmente priorizam idiomas bem documentados, enquanto idiomas amplamente falados, mas com menos recursos, são frequentemente negligenciados. Para abordar essa disparidade, apresentamos o Babel, um LLM multilíngue de código aberto que cobre os 25 idiomas mais falados, suporta mais de 90% da população global e inclui muitos idiomas negligenciados por outros LLMs multilíngues de código aberto. Diferente das abordagens tradicionais de pré-treinamento contínuo, o Babel expande sua contagem de parâmetros por meio de uma técnica de extensão de camadas que eleva o limite de desempenho do modelo. Introduzimos duas variantes: o Babel-9B, projetado para inferência e ajuste fino eficientes, e o Babel-83B, que estabelece um novo padrão para LLMs multilíngues de código aberto. Avaliações extensas em tarefas multilíngues demonstram seu desempenho superior em comparação com LLMs de código aberto de tamanho similar. Além disso, utilizando conjuntos de dados de ajuste fino supervisionado de código aberto, o Babel alcança um desempenho notável, com o Babel-9B-Chat liderando entre LLMs de 10 bilhões de parâmetros e o Babel-83B-Chat estabelecendo um novo padrão para tarefas multilíngues, atingindo o mesmo nível de modelos comerciais.
English
Large language models (LLMs) have revolutionized natural language processing
(NLP), yet open-source multilingual LLMs remain scarce, with existing models
often limited in language coverage. Such models typically prioritize
well-resourced languages, while widely spoken but under-resourced languages are
often overlooked. To address this disparity, we introduce Babel, an
open multilingual LLM that covers the top 25 languages by number of speakers,
supports over 90% of the global population, and includes many languages
neglected by other open multilingual LLMs. Unlike traditional continue
pretraining approaches, Babel expands its parameter count through a layer
extension technique that elevates Babel's performance ceiling. We introduce two
variants: Babel-9B, designed for efficient inference and
fine-tuning, and Babel-83B, which sets a new standard for open
multilingual LLMs. Extensive evaluations on multilingual tasks demonstrate its
superior performance compared to open LLMs of comparable size. In addition,
using open-source supervised fine-tuning datasets, Babel achieves remarkable
performance, with Babel-9B-Chat leading among 10B-sized LLMs and Babel-83B-Chat
setting a new standard for multilingual tasks, reaching the same level of
commercial models.Summary
AI-Generated Summary