ChatPaper.aiChatPaper

EuroLLM: Modelos de Lenguaje Multilingües para Europa

EuroLLM: Multilingual Language Models for Europe

September 24, 2024
Autores: Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins
cs.AI

Resumen

La calidad de los LLMs de peso abierto ha experimentado una mejora significativa, sin embargo, siguen estando predominantemente centrados en el inglés. En este artículo, presentamos el proyecto EuroLLM, con el objetivo de desarrollar un conjunto de LLMs multilingües de peso abierto capaces de comprender y generar texto en todos los idiomas oficiales de la Unión Europea, así como en varios idiomas relevantes adicionales. Detallamos el progreso realizado hasta la fecha, describiendo nuestro proceso de recolección y filtrado de datos, el desarrollo de leyes de escalado, la creación de nuestro tokenizador multilingüe, y las configuraciones de mezcla de datos y modelado. Además, lanzamos nuestros modelos iniciales: EuroLLM-1.7B y EuroLLM-1.7B-Instruct, y reportamos su rendimiento en bancos de pruebas generales multilingües y en traducción automática.
English
The quality of open-weight LLMs has seen significant improvement, yet they remain predominantly focused on English. In this paper, we introduce the EuroLLM project, aimed at developing a suite of open-weight multilingual LLMs capable of understanding and generating text in all official European Union languages, as well as several additional relevant languages. We outline the progress made to date, detailing our data collection and filtering process, the development of scaling laws, the creation of our multilingual tokenizer, and the data mix and modeling configurations. Additionally, we release our initial models: EuroLLM-1.7B and EuroLLM-1.7B-Instruct and report their performance on multilingual general benchmarks and machine translation.

Summary

AI-Generated Summary

PDF264November 16, 2024