EuroLLM: Многоязычные языковые модели для Европы
EuroLLM: Multilingual Language Models for Europe
September 24, 2024
Авторы: Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins
cs.AI
Аннотация
Качество открытых LLM моделей значительно улучшилось, однако они по-прежнему в основном сосредоточены на английском языке. В данной статье мы представляем проект EuroLLM, направленный на разработку набора открытых многоязычных LLM моделей, способных понимать и генерировать текст на всех официальных языках Европейского союза, а также на нескольких других значимых языках. Мы изложим прогресс, достигнутый на данный момент, детализируя процесс сбора и фильтрации данных, разработку законов масштабирования, создание нашего многоязычного токенизатора, а также конфигурации смешивания данных и моделирования. Кроме того, мы выпускаем наши первоначальные модели: EuroLLM-1.7B и EuroLLM-1.7B-Instruct и сообщаем о их производительности на многоязычных общих бенчмарках и машинном переводе.
English
The quality of open-weight LLMs has seen significant improvement, yet they
remain predominantly focused on English. In this paper, we introduce the
EuroLLM project, aimed at developing a suite of open-weight multilingual LLMs
capable of understanding and generating text in all official European Union
languages, as well as several additional relevant languages. We outline the
progress made to date, detailing our data collection and filtering process, the
development of scaling laws, the creation of our multilingual tokenizer, and
the data mix and modeling configurations. Additionally, we release our initial
models: EuroLLM-1.7B and EuroLLM-1.7B-Instruct and report their performance on
multilingual general benchmarks and machine translation.Summary
AI-Generated Summary