ChatPaper.aiChatPaper

EuroLLM: Mehrsprachige Sprachmodelle für Europa

EuroLLM: Multilingual Language Models for Europe

September 24, 2024
Autoren: Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins
cs.AI

Zusammenfassung

Die Qualität von Open-Weight LLMs hat signifikante Verbesserungen erfahren, bleibt jedoch hauptsächlich auf Englisch fokussiert. In diesem Paper stellen wir das EuroLLM-Projekt vor, das darauf abzielt, eine Reihe von Open-Weight multilingualen LLMs zu entwickeln, die in der Lage sind, Texte in allen offiziellen Sprachen der Europäischen Union sowie in mehreren weiteren relevanten Sprachen zu verstehen und zu generieren. Wir skizzieren den bisherigen Fortschritt, indem wir unseren Datensammlungs- und Filterungsprozess, die Entwicklung von Skalierungsgesetzen, die Erstellung unseres multilingualen Tokenizers sowie die Datenvielfalt und Modellierungskonfigurationen darlegen. Darüber hinaus veröffentlichen wir unsere ersten Modelle: EuroLLM-1.7B und EuroLLM-1.7B-Instruct und berichten über ihre Leistung in multilingualen allgemeinen Benchmarks und maschinelle Übersetzung.
English
The quality of open-weight LLMs has seen significant improvement, yet they remain predominantly focused on English. In this paper, we introduce the EuroLLM project, aimed at developing a suite of open-weight multilingual LLMs capable of understanding and generating text in all official European Union languages, as well as several additional relevant languages. We outline the progress made to date, detailing our data collection and filtering process, the development of scaling laws, the creation of our multilingual tokenizer, and the data mix and modeling configurations. Additionally, we release our initial models: EuroLLM-1.7B and EuroLLM-1.7B-Instruct and report their performance on multilingual general benchmarks and machine translation.

Summary

AI-Generated Summary

PDF264November 16, 2024