Poro 34B y la bendición del multilingüismo

Resumen

El preentrenamiento de los modelos de lenguaje más avanzados ahora requiere billones de palabras de texto, lo que es órdenes de magnitud mayor que lo disponible para la gran mayoría de los idiomas. Si bien incluir texto en más de un idioma es una forma obvia de obtener más datos de preentrenamiento, el multilingüismo a menudo se considera una maldición, y la mayoría de los esfuerzos de entrenamiento de modelos continúan enfocándose casi exclusivamente en idiomas individuales de gran tamaño. Creemos que el multilingüismo puede ser una bendición y que debería ser posible mejorar sustancialmente las capacidades de los modelos monolingües para idiomas pequeños mediante el entrenamiento multilingüe. En este estudio, presentamos Poro 34B, un modelo de 34 mil millones de parámetros entrenado con 1 billón de tokens de finlandés, inglés y lenguajes de programación, y demostramos que un enfoque de entrenamiento multilingüe puede producir un modelo que no solo avanza sustancialmente sobre las capacidades de los modelos existentes para el finlandés, sino que también sobresale en traducción y es competitivo en su clase en la generación de inglés y lenguajes de programación. Publicamos los parámetros del modelo, scripts y datos bajo licencias abiertas en https://huggingface.co/LumiOpen/Poro-34B.

English

The pretraining of state-of-the-art large language models now requires trillions of words of text, which is orders of magnitude more than available for the vast majority of languages. While including text in more than one language is an obvious way to acquire more pretraining data, multilinguality is often seen as a curse, and most model training efforts continue to focus near-exclusively on individual large languages. We believe that multilinguality can be a blessing and that it should be possible to substantially improve over the capabilities of monolingual models for small languages through multilingual training. In this study, we introduce Poro 34B, a 34 billion parameter model trained for 1 trillion tokens of Finnish, English, and programming languages, and demonstrate that a multilingual training approach can produce a model that not only substantially advances over the capabilities of existing models for Finnish, but also excels in translation and is competitive in its class in generating English and programming languages. We release the model parameters, scripts, and data under open licenses at https://huggingface.co/LumiOpen/Poro-34B.

Poro 34B y la bendición del multilingüismo

Poro 34B and the Blessing of Multilinguality

Resumen

Support