ChatPaper.aiChatPaper

EuroLLM : Modèles de langage multilingues pour l'Europe

EuroLLM: Multilingual Language Models for Europe

September 24, 2024
Auteurs: Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins
cs.AI

Résumé

La qualité des LLM à poids ouvert a connu une amélioration significative, mais ils restent principalement axés sur l'anglais. Dans cet article, nous présentons le projet EuroLLM, visant à développer une série de LLM multilingues à poids ouvert capables de comprendre et de générer du texte dans toutes les langues officielles de l'Union européenne, ainsi que dans plusieurs autres langues pertinentes. Nous décrivons les progrès réalisés à ce jour, en détaillant notre processus de collecte et de filtrage des données, le développement des lois d'échelle, la création de notre tokeniseur multilingue, ainsi que les configurations de mélange de données et de modélisation. De plus, nous publions nos modèles initiaux : EuroLLM-1.7B et EuroLLM-1.7B-Instruct et rapportons leurs performances sur des benchmarks généraux multilingues et en traduction automatique.
English
The quality of open-weight LLMs has seen significant improvement, yet they remain predominantly focused on English. In this paper, we introduce the EuroLLM project, aimed at developing a suite of open-weight multilingual LLMs capable of understanding and generating text in all official European Union languages, as well as several additional relevant languages. We outline the progress made to date, detailing our data collection and filtering process, the development of scaling laws, the creation of our multilingual tokenizer, and the data mix and modeling configurations. Additionally, we release our initial models: EuroLLM-1.7B and EuroLLM-1.7B-Instruct and report their performance on multilingual general benchmarks and machine translation.

Summary

AI-Generated Summary

PDF264November 16, 2024