Poro 34B et la bénédiction du multilinguisme
Poro 34B and the Blessing of Multilinguality
April 2, 2024
Auteurs: Risto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo
cs.AI
Résumé
Le pré-entraînement des modèles de langage de pointe de grande taille nécessite désormais des milliers de milliards de mots, ce qui est plusieurs ordres de grandeur supérieur à la quantité de texte disponible pour la grande majorité des langues. Bien que l'inclusion de texte dans plusieurs langues soit une manière évidente d'acquérir davantage de données pour le pré-entraînement, le multilinguisme est souvent perçu comme une malédiction, et la plupart des efforts de formation de modèles continuent de se concentrer presque exclusivement sur des langues individuelles de grande envergure. Nous pensons que le multilinguisme peut être une bénédiction et qu'il devrait être possible d'améliorer considérablement les capacités des modèles monolingues pour les petites langues grâce à un entraînement multilingue. Dans cette étude, nous présentons Poro 34B, un modèle de 34 milliards de paramètres entraîné sur 1 000 milliards de tokens de finnois, d'anglais et de langages de programmation, et démontrons qu'une approche d'entraînement multilingue peut produire un modèle qui non seulement dépasse largement les capacités des modèles existants pour le finnois, mais excelle également en traduction et est compétitif dans sa catégorie pour la génération d'anglais et de langages de programmation. Nous publions les paramètres du modèle, les scripts et les données sous des licences ouvertes à l'adresse suivante : https://huggingface.co/LumiOpen/Poro-34B.
English
The pretraining of state-of-the-art large language models now requires
trillions of words of text, which is orders of magnitude more than available
for the vast majority of languages. While including text in more than one
language is an obvious way to acquire more pretraining data, multilinguality is
often seen as a curse, and most model training efforts continue to focus
near-exclusively on individual large languages. We believe that multilinguality
can be a blessing and that it should be possible to substantially improve over
the capabilities of monolingual models for small languages through multilingual
training. In this study, we introduce Poro 34B, a 34 billion parameter model
trained for 1 trillion tokens of Finnish, English, and programming languages,
and demonstrate that a multilingual training approach can produce a model that
not only substantially advances over the capabilities of existing models for
Finnish, but also excels in translation and is competitive in its class in
generating English and programming languages. We release the model parameters,
scripts, and data under open licenses at
https://huggingface.co/LumiOpen/Poro-34B.Summary
AI-Generated Summary