ChatPaper.aiChatPaper

EuroLLM: ヨーロッパ向けの多言語言語モデル

EuroLLM: Multilingual Language Models for Europe

September 24, 2024
著者: Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins
cs.AI

要旨

オープンウェイトLLMの品質は大幅に向上していますが、依然として主に英語に焦点を当てています。本論文では、ユーロLLMプロジェクトを紹介し、すべての欧州連合公用語およびいくつかの追加の関連言語でテキストの理解と生成が可能なオープンウェイトの多言語LLMスイートを開発することを目指します。これまでに達成された進捗状況、データ収集およびフィルタリングプロセス、スケーリング則の開発、多言語トークナイザーの作成、データミックスおよびモデリング構成について詳細に説明します。さらに、初期モデルであるEuroLLM-1.7BおよびEuroLLM-1.7B-Instructを公開し、多言語一般ベンチマークおよび機械翻訳におけるパフォーマンスを報告します。
English
The quality of open-weight LLMs has seen significant improvement, yet they remain predominantly focused on English. In this paper, we introduce the EuroLLM project, aimed at developing a suite of open-weight multilingual LLMs capable of understanding and generating text in all official European Union languages, as well as several additional relevant languages. We outline the progress made to date, detailing our data collection and filtering process, the development of scaling laws, the creation of our multilingual tokenizer, and the data mix and modeling configurations. Additionally, we release our initial models: EuroLLM-1.7B and EuroLLM-1.7B-Instruct and report their performance on multilingual general benchmarks and machine translation.

Summary

AI-Generated Summary

PDF264November 16, 2024