Poro 34B e la benedizione della multilinguità

Abstract

Il pretraining dei modelli linguistici all'avanguardia di grandi dimensioni richiede ora trilioni di parole di testo, una quantità che supera di ordini di grandezza quella disponibile per la stragrande maggioranza delle lingue. Sebbene includere testi in più di una lingua sia un modo ovvio per acquisire più dati di pretraining, il multilinguismo è spesso visto come una maledizione, e la maggior parte degli sforzi di addestramento dei modelli continua a concentrarsi quasi esclusivamente su singole lingue di grandi dimensioni. Noi crediamo che il multilinguismo possa essere una benedizione e che dovrebbe essere possibile migliorare sostanzialmente le capacità dei modelli monolingue per le lingue minori attraverso un addestramento multilingue. In questo studio, presentiamo Poro 34B, un modello da 34 miliardi di parametri addestrato su 1 trilione di token di finlandese, inglese e linguaggi di programmazione, e dimostriamo che un approccio di addestramento multilingue può produrre un modello che non solo supera significativamente le capacità dei modelli esistenti per il finlandese, ma eccelle anche nella traduzione ed è competitivo nella sua classe nella generazione di inglese e linguaggi di programmazione. Rilasciamo i parametri del modello, gli script e i dati con licenze open su https://huggingface.co/LumiOpen/Poro-34B.

English

The pretraining of state-of-the-art large language models now requires trillions of words of text, which is orders of magnitude more than available for the vast majority of languages. While including text in more than one language is an obvious way to acquire more pretraining data, multilinguality is often seen as a curse, and most model training efforts continue to focus near-exclusively on individual large languages. We believe that multilinguality can be a blessing and that it should be possible to substantially improve over the capabilities of monolingual models for small languages through multilingual training. In this study, we introduce Poro 34B, a 34 billion parameter model trained for 1 trillion tokens of Finnish, English, and programming languages, and demonstrate that a multilingual training approach can produce a model that not only substantially advances over the capabilities of existing models for Finnish, but also excels in translation and is competitive in its class in generating English and programming languages. We release the model parameters, scripts, and data under open licenses at https://huggingface.co/LumiOpen/Poro-34B.

Poro 34B e la benedizione della multilinguità

Poro 34B and the Blessing of Multilinguality

Abstract

Support