ChatPaper.aiChatPaper

바벨: 전 세계 화자의 90% 이상을 지원하는 오픈 소스 다국적 대형 언어 모델

Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

March 2, 2025
저자: Yiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang
cs.AI

초록

대형 언어 모델(LLMs)은 자연어 처리(NLP) 분야에 혁명을 일으켰지만, 오픈소스 다국어 LLMs는 여전히 부족한 상황이며, 기존 모델들은 언어 커버리지 측면에서 제한적입니다. 이러한 모델들은 일반적으로 자원이 풍부한 언어를 우선시하는 반면, 널리 사용되지만 자원이 부족한 언어들은 종종 간과됩니다. 이러한 격차를 해결하기 위해, 우리는 Babel을 소개합니다. Babel은 화자 수 기준 상위 25개 언어를 커버하며, 전 세계 인구의 90% 이상을 지원하고, 다른 오픈소스 다국어 LLMs에서 소외된 많은 언어들을 포함합니다. 기존의 지속적 사전 학습 접근법과 달리, Babel은 레이어 확장 기법을 통해 매개변수 수를 늘려 성능 상한선을 높였습니다. 우리는 두 가지 변형을 소개합니다: 효율적인 추론과 미세 조정을 위해 설계된 Babel-9B와, 오픈소스 다국어 LLMs의 새로운 기준을 세운 Babel-83B입니다. 다국어 작업에 대한 광범위한 평가를 통해, Babel은 동일한 규모의 오픈소스 LLMs에 비해 우수한 성능을 보여줍니다. 또한, 오픈소스 지도 학습 미세 조정 데이터셋을 사용하여 Babel은 놀라운 성능을 달성했으며, Babel-9B-Chat은 10B 규모의 LLMs 중에서 선두를 달리고, Babel-83B-Chat은 다국어 작업에서 새로운 기준을 세워 상용 모델과 동등한 수준에 도달했습니다.
English
Large language models (LLMs) have revolutionized natural language processing (NLP), yet open-source multilingual LLMs remain scarce, with existing models often limited in language coverage. Such models typically prioritize well-resourced languages, while widely spoken but under-resourced languages are often overlooked. To address this disparity, we introduce Babel, an open multilingual LLM that covers the top 25 languages by number of speakers, supports over 90% of the global population, and includes many languages neglected by other open multilingual LLMs. Unlike traditional continue pretraining approaches, Babel expands its parameter count through a layer extension technique that elevates Babel's performance ceiling. We introduce two variants: Babel-9B, designed for efficient inference and fine-tuning, and Babel-83B, which sets a new standard for open multilingual LLMs. Extensive evaluations on multilingual tasks demonstrate its superior performance compared to open LLMs of comparable size. In addition, using open-source supervised fine-tuning datasets, Babel achieves remarkable performance, with Babel-9B-Chat leading among 10B-sized LLMs and Babel-83B-Chat setting a new standard for multilingual tasks, reaching the same level of commercial models.

Summary

AI-Generated Summary

PDF643March 6, 2025