EuroLLM: Modelli Linguistici Multilingue per l'Europa
EuroLLM: Multilingual Language Models for Europe
September 24, 2024
Autori: Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins
cs.AI
Abstract
La qualità dei LLM open-weight ha visto un significativo miglioramento, tuttavia rimangono prevalentemente concentrati sull'inglese. In questo articolo, presentiamo il progetto EuroLLM, mirato allo sviluppo di una serie di LLM multilingue open-weight capaci di comprendere e generare testo in tutte le lingue ufficiali dell'Unione Europea, nonché in diverse lingue aggiuntive rilevanti. Illustreremo i progressi compiuti fino ad oggi, dettagliando il nostro processo di raccolta e filtraggio dei dati, lo sviluppo delle leggi di scalabilità, la creazione del nostro tokenizzatore multilingue e le configurazioni di miscelazione dei dati e di modellizzazione. Inoltre, rilasceremo i nostri modelli iniziali: EuroLLM-1.7B e EuroLLM-1.7B-Instruct e ne riporteremo le prestazioni su benchmark multilingue generali e traduzione automatica.
English
The quality of open-weight LLMs has seen significant improvement, yet they
remain predominantly focused on English. In this paper, we introduce the
EuroLLM project, aimed at developing a suite of open-weight multilingual LLMs
capable of understanding and generating text in all official European Union
languages, as well as several additional relevant languages. We outline the
progress made to date, detailing our data collection and filtering process, the
development of scaling laws, the creation of our multilingual tokenizer, and
the data mix and modeling configurations. Additionally, we release our initial
models: EuroLLM-1.7B and EuroLLM-1.7B-Instruct and report their performance on
multilingual general benchmarks and machine translation.Summary
AI-Generated Summary