ChatPaper.aiChatPaper

Babel : Modèles de langage multilingues ouverts desservant plus de 90 % des locuteurs mondiaux

Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

March 2, 2025
Auteurs: Yiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont révolutionné le traitement automatique du langage naturel (NLP), mais les LLMs multilingues open-source restent rares, les modèles existants étant souvent limités en termes de couverture linguistique. Ces modèles privilégient généralement les langues bien dotées en ressources, tandis que les langues largement parlées mais sous-dotées sont souvent négligées. Pour remédier à cette disparité, nous présentons Babel, un LLM multilingue open-source qui couvre les 25 langues les plus parlées, prend en charge plus de 90 % de la population mondiale et inclut de nombreuses langues ignorées par d'autres LLMs multilingues open-source. Contrairement aux approches traditionnelles de pré-entraînement continu, Babel étend son nombre de paramètres grâce à une technique d'extension de couches qui élève le plafond de performance de Babel. Nous introduisons deux variantes : Babel-9B, conçu pour une inférence et un fine-tuning efficaces, et Babel-83B, qui établit un nouveau standard pour les LLMs multilingues open-source. Des évaluations approfondies sur des tâches multilingues démontrent sa performance supérieure par rapport aux LLMs open-source de taille comparable. De plus, en utilisant des ensembles de données de fine-tuning supervisé open-source, Babel obtient des performances remarquables, avec Babel-9B-Chat en tête parmi les LLMs de 10 milliards de paramètres et Babel-83B-Chat établissant un nouveau standard pour les tâches multilingues, atteignant le niveau des modèles commerciaux.
English
Large language models (LLMs) have revolutionized natural language processing (NLP), yet open-source multilingual LLMs remain scarce, with existing models often limited in language coverage. Such models typically prioritize well-resourced languages, while widely spoken but under-resourced languages are often overlooked. To address this disparity, we introduce Babel, an open multilingual LLM that covers the top 25 languages by number of speakers, supports over 90% of the global population, and includes many languages neglected by other open multilingual LLMs. Unlike traditional continue pretraining approaches, Babel expands its parameter count through a layer extension technique that elevates Babel's performance ceiling. We introduce two variants: Babel-9B, designed for efficient inference and fine-tuning, and Babel-83B, which sets a new standard for open multilingual LLMs. Extensive evaluations on multilingual tasks demonstrate its superior performance compared to open LLMs of comparable size. In addition, using open-source supervised fine-tuning datasets, Babel achieves remarkable performance, with Babel-9B-Chat leading among 10B-sized LLMs and Babel-83B-Chat setting a new standard for multilingual tasks, reaching the same level of commercial models.

Summary

AI-Generated Summary

PDF643March 6, 2025