ChatPaper.aiChatPaper

Babel: Modelos de Lenguaje Multilingües a Gran Escala que Atienden a Más del 90% de los Hablantes Globales

Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

March 2, 2025
Autores: Yiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han revolucionado el procesamiento del lenguaje natural (NLP), sin embargo, los LLMs multilingües de código abierto siguen siendo escasos, y los modelos existentes suelen tener una cobertura lingüística limitada. Estos modelos suelen priorizar idiomas bien documentados, mientras que lenguas ampliamente habladas pero con menos recursos a menudo son ignoradas. Para abordar esta disparidad, presentamos Babel, un LLM multilingüe de código abierto que cubre los 25 idiomas más hablados, da soporte a más del 90% de la población mundial e incluye muchas lenguas desatendidas por otros LLMs multilingües de código abierto. A diferencia de los enfoques tradicionales de preentrenamiento continuo, Babel amplía su número de parámetros mediante una técnica de extensión de capas que eleva su techo de rendimiento. Introducimos dos variantes: Babel-9B, diseñado para una inferencia y ajuste fino eficientes, y Babel-83B, que establece un nuevo estándar para los LLMs multilingües de código abierto. Evaluaciones exhaustivas en tareas multilingües demuestran su rendimiento superior en comparación con LLMs de código abierto de tamaño similar. Además, utilizando conjuntos de datos de ajuste fino supervisado de código abierto, Babel logra un rendimiento notable, con Babel-9B-Chat liderando entre los LLMs de 10 mil millones de parámetros y Babel-83B-Chat estableciendo un nuevo estándar en tareas multilingües, alcanzando el nivel de los modelos comerciales.
English
Large language models (LLMs) have revolutionized natural language processing (NLP), yet open-source multilingual LLMs remain scarce, with existing models often limited in language coverage. Such models typically prioritize well-resourced languages, while widely spoken but under-resourced languages are often overlooked. To address this disparity, we introduce Babel, an open multilingual LLM that covers the top 25 languages by number of speakers, supports over 90% of the global population, and includes many languages neglected by other open multilingual LLMs. Unlike traditional continue pretraining approaches, Babel expands its parameter count through a layer extension technique that elevates Babel's performance ceiling. We introduce two variants: Babel-9B, designed for efficient inference and fine-tuning, and Babel-83B, which sets a new standard for open multilingual LLMs. Extensive evaluations on multilingual tasks demonstrate its superior performance compared to open LLMs of comparable size. In addition, using open-source supervised fine-tuning datasets, Babel achieves remarkable performance, with Babel-9B-Chat leading among 10B-sized LLMs and Babel-83B-Chat setting a new standard for multilingual tasks, reaching the same level of commercial models.

Summary

AI-Generated Summary

PDF643March 6, 2025