Poro 34B y la bendición del multilingüismo
Poro 34B and the Blessing of Multilinguality
April 2, 2024
Autores: Risto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo
cs.AI
Resumen
El preentrenamiento de los modelos de lenguaje más avanzados ahora requiere billones de palabras de texto, lo que es órdenes de magnitud mayor que lo disponible para la gran mayoría de los idiomas. Si bien incluir texto en más de un idioma es una forma obvia de obtener más datos de preentrenamiento, el multilingüismo a menudo se considera una maldición, y la mayoría de los esfuerzos de entrenamiento de modelos continúan enfocándose casi exclusivamente en idiomas individuales de gran tamaño. Creemos que el multilingüismo puede ser una bendición y que debería ser posible mejorar sustancialmente las capacidades de los modelos monolingües para idiomas pequeños mediante el entrenamiento multilingüe. En este estudio, presentamos Poro 34B, un modelo de 34 mil millones de parámetros entrenado con 1 billón de tokens de finlandés, inglés y lenguajes de programación, y demostramos que un enfoque de entrenamiento multilingüe puede producir un modelo que no solo avanza sustancialmente sobre las capacidades de los modelos existentes para el finlandés, sino que también sobresale en traducción y es competitivo en su clase en la generación de inglés y lenguajes de programación. Publicamos los parámetros del modelo, scripts y datos bajo licencias abiertas en https://huggingface.co/LumiOpen/Poro-34B.
English
The pretraining of state-of-the-art large language models now requires
trillions of words of text, which is orders of magnitude more than available
for the vast majority of languages. While including text in more than one
language is an obvious way to acquire more pretraining data, multilinguality is
often seen as a curse, and most model training efforts continue to focus
near-exclusively on individual large languages. We believe that multilinguality
can be a blessing and that it should be possible to substantially improve over
the capabilities of monolingual models for small languages through multilingual
training. In this study, we introduce Poro 34B, a 34 billion parameter model
trained for 1 trillion tokens of Finnish, English, and programming languages,
and demonstrate that a multilingual training approach can produce a model that
not only substantially advances over the capabilities of existing models for
Finnish, but also excels in translation and is competitive in its class in
generating English and programming languages. We release the model parameters,
scripts, and data under open licenses at
https://huggingface.co/LumiOpen/Poro-34B.