EuroLLM: Mehrsprachige Sprachmodelle für Europa
EuroLLM: Multilingual Language Models for Europe
September 24, 2024
Autoren: Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins
cs.AI
Zusammenfassung
Die Qualität von Open-Weight LLMs hat signifikante Verbesserungen erfahren, bleibt jedoch hauptsächlich auf Englisch fokussiert. In diesem Paper stellen wir das EuroLLM-Projekt vor, das darauf abzielt, eine Reihe von Open-Weight multilingualen LLMs zu entwickeln, die in der Lage sind, Texte in allen offiziellen Sprachen der Europäischen Union sowie in mehreren weiteren relevanten Sprachen zu verstehen und zu generieren. Wir skizzieren den bisherigen Fortschritt, indem wir unseren Datensammlungs- und Filterungsprozess, die Entwicklung von Skalierungsgesetzen, die Erstellung unseres multilingualen Tokenizers sowie die Datenvielfalt und Modellierungskonfigurationen darlegen. Darüber hinaus veröffentlichen wir unsere ersten Modelle: EuroLLM-1.7B und EuroLLM-1.7B-Instruct und berichten über ihre Leistung in multilingualen allgemeinen Benchmarks und maschinelle Übersetzung.
English
The quality of open-weight LLMs has seen significant improvement, yet they
remain predominantly focused on English. In this paper, we introduce the
EuroLLM project, aimed at developing a suite of open-weight multilingual LLMs
capable of understanding and generating text in all official European Union
languages, as well as several additional relevant languages. We outline the
progress made to date, detailing our data collection and filtering process, the
development of scaling laws, the creation of our multilingual tokenizer, and
the data mix and modeling configurations. Additionally, we release our initial
models: EuroLLM-1.7B and EuroLLM-1.7B-Instruct and report their performance on
multilingual general benchmarks and machine translation.Summary
AI-Generated Summary