EuroLLM: Modelli Linguistici Multilingue per l'Europa

Abstract

La qualità dei LLM open-weight ha visto un significativo miglioramento, tuttavia rimangono prevalentemente concentrati sull'inglese. In questo articolo, presentiamo il progetto EuroLLM, mirato allo sviluppo di una serie di LLM multilingue open-weight capaci di comprendere e generare testo in tutte le lingue ufficiali dell'Unione Europea, nonché in diverse lingue aggiuntive rilevanti. Illustreremo i progressi compiuti fino ad oggi, dettagliando il nostro processo di raccolta e filtraggio dei dati, lo sviluppo delle leggi di scalabilità, la creazione del nostro tokenizzatore multilingue e le configurazioni di miscelazione dei dati e di modellizzazione. Inoltre, rilasceremo i nostri modelli iniziali: EuroLLM-1.7B e EuroLLM-1.7B-Instruct e ne riporteremo le prestazioni su benchmark multilingue generali e traduzione automatica.

English

The quality of open-weight LLMs has seen significant improvement, yet they remain predominantly focused on English. In this paper, we introduce the EuroLLM project, aimed at developing a suite of open-weight multilingual LLMs capable of understanding and generating text in all official European Union languages, as well as several additional relevant languages. We outline the progress made to date, detailing our data collection and filtering process, the development of scaling laws, the creation of our multilingual tokenizer, and the data mix and modeling configurations. Additionally, we release our initial models: EuroLLM-1.7B and EuroLLM-1.7B-Instruct and report their performance on multilingual general benchmarks and machine translation.

EuroLLM: Modelli Linguistici Multilingue per l'Europa

EuroLLM: Multilingual Language Models for Europe

Abstract

Support