ChatPaper.aiChatPaper

Poro 34B e a Bênção da Multilinguagem

Poro 34B and the Blessing of Multilinguality

April 2, 2024
Autores: Risto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo
cs.AI

Resumo

O pré-treinamento dos modelos de linguagem de última geração agora requer trilhões de palavras de texto, uma quantidade ordens de magnitude maior do que a disponível para a vasta maioria dos idiomas. Embora a inclusão de texto em mais de um idioma seja uma maneira óbvia de adquirir mais dados para pré-treinamento, o multilinguismo é frequentemente visto como uma maldição, e a maioria dos esforços de treinamento de modelos continua focada quase exclusivamente em idiomas individuais de grande porte. Acreditamos que o multilinguismo pode ser uma bênção e que deve ser possível melhorar substancialmente as capacidades dos modelos monolíngues para idiomas menores por meio do treinamento multilíngue. Neste estudo, apresentamos o Poro 34B, um modelo de 34 bilhões de parâmetros treinado com 1 trilhão de tokens de finlandês, inglês e linguagens de programação, e demonstramos que uma abordagem de treinamento multilíngue pode produzir um modelo que não apenas avança substancialmente sobre as capacidades dos modelos existentes para o finlandês, mas também se destaca em tradução e é competitivo em sua classe na geração de inglês e linguagens de programação. Disponibilizamos os parâmetros do modelo, scripts e dados sob licenças abertas em https://huggingface.co/LumiOpen/Poro-34B.
English
The pretraining of state-of-the-art large language models now requires trillions of words of text, which is orders of magnitude more than available for the vast majority of languages. While including text in more than one language is an obvious way to acquire more pretraining data, multilinguality is often seen as a curse, and most model training efforts continue to focus near-exclusively on individual large languages. We believe that multilinguality can be a blessing and that it should be possible to substantially improve over the capabilities of monolingual models for small languages through multilingual training. In this study, we introduce Poro 34B, a 34 billion parameter model trained for 1 trillion tokens of Finnish, English, and programming languages, and demonstrate that a multilingual training approach can produce a model that not only substantially advances over the capabilities of existing models for Finnish, but also excels in translation and is competitive in its class in generating English and programming languages. We release the model parameters, scripts, and data under open licenses at https://huggingface.co/LumiOpen/Poro-34B.
PDF151November 26, 2024