Poro 34B и благословение многоязычности
Poro 34B and the Blessing of Multilinguality
April 2, 2024
Авторы: Risto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo
cs.AI
Аннотация
Предварительное обучение современных крупных языковых моделей теперь требует трлн слов текста, что на порядки больше, чем доступно для подавляющего большинства языков. Включение текста на нескольких языках является очевидным способом получения большего объема данных для предварительного обучения, однако мультиязычность часто рассматривается как проклятие, и большинство усилий по обучению моделей продолжают фокусироваться практически исключительно на отдельных крупных языках. Мы считаем, что мультиязычность может стать благословением и что возможно значительное улучшение возможностей моноязычных моделей для малых языков с помощью мультиязычного обучения. В данном исследовании мы представляем Poro 34B - модель с 34 млрд параметров, обученную на 1 трлн токенов финского, английского и языков программирования, и демонстрируем, что мультиязычный подход к обучению может создать модель, которая не только значительно превосходит возможности существующих моделей для финского языка, но также превосходит в области перевода и конкурентоспособна в своем классе в генерации английского и языков программирования. Мы предоставляем параметры модели, скрипты и данные под открытыми лицензиями на https://huggingface.co/LumiOpen/Poro-34B.
English
The pretraining of state-of-the-art large language models now requires
trillions of words of text, which is orders of magnitude more than available
for the vast majority of languages. While including text in more than one
language is an obvious way to acquire more pretraining data, multilinguality is
often seen as a curse, and most model training efforts continue to focus
near-exclusively on individual large languages. We believe that multilinguality
can be a blessing and that it should be possible to substantially improve over
the capabilities of monolingual models for small languages through multilingual
training. In this study, we introduce Poro 34B, a 34 billion parameter model
trained for 1 trillion tokens of Finnish, English, and programming languages,
and demonstrate that a multilingual training approach can produce a model that
not only substantially advances over the capabilities of existing models for
Finnish, but also excels in translation and is competitive in its class in
generating English and programming languages. We release the model parameters,
scripts, and data under open licenses at
https://huggingface.co/LumiOpen/Poro-34B.Summary
AI-Generated Summary