ChatPaper.aiChatPaper

EuroLLM: Meertalige Taalmodellen voor Europa

EuroLLM: Multilingual Language Models for Europe

September 24, 2024
Auteurs: Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins
cs.AI

Samenvatting

De kwaliteit van open-gewicht LLM's is aanzienlijk verbeterd, maar ze blijven voornamelijk gericht op het Engels. In dit artikel introduceren we het EuroLLM-project, gericht op het ontwikkelen van een reeks open-gewicht meertalige LLM's die in staat zijn tekst te begrijpen en genereren in alle officiële talen van de Europese Unie, evenals verschillende andere relevante talen. We schetsen de tot nu toe geboekte vooruitgang, waarbij we onze gegevensverzamelings- en filteringsproces, de ontwikkeling van schaalwetten, de creatie van onze meertalige tokenizer, en de gegevensmix en modelleringsconfiguraties in detail beschrijven. Daarnaast publiceren we onze initiële modellen: EuroLLM-1.7B en EuroLLM-1.7B-Instruct en rapporteren hun prestaties op meertalige algemene benchmarks en machinevertalingen.
English
The quality of open-weight LLMs has seen significant improvement, yet they remain predominantly focused on English. In this paper, we introduce the EuroLLM project, aimed at developing a suite of open-weight multilingual LLMs capable of understanding and generating text in all official European Union languages, as well as several additional relevant languages. We outline the progress made to date, detailing our data collection and filtering process, the development of scaling laws, the creation of our multilingual tokenizer, and the data mix and modeling configurations. Additionally, we release our initial models: EuroLLM-1.7B and EuroLLM-1.7B-Instruct and report their performance on multilingual general benchmarks and machine translation.

Summary

AI-Generated Summary

PDF264November 16, 2024