ChatPaper.aiChatPaper

Poro 34B und der Segen der Mehrsprachigkeit

Poro 34B and the Blessing of Multilinguality

April 2, 2024
Autoren: Risto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo
cs.AI

Zusammenfassung

Das Pretraining moderner großer Sprachmodelle erfordert mittlerweile Billionen von Wörtern Text, was um Größenordnungen mehr ist als für die überwiegende Mehrheit der Sprachen verfügbar ist. Während das Einbeziehen von Texten in mehr als einer Sprache ein offensichtlicher Weg ist, um mehr Pretraining-Daten zu erhalten, wird Multilingualität oft als Fluch angesehen, und die meisten Bemühungen zur Modellschulung konzentrieren sich weiterhin fast ausschließlich auf einzelne große Sprachen. Wir sind der Meinung, dass Multilingualität ein Segen sein kann und dass es möglich sein sollte, die Fähigkeiten monolingualer Modelle für kleine Sprachen erheblich zu verbessern durch multilinguales Training. In dieser Studie stellen wir Poro 34B vor, ein 34 Milliarden Parameter umfassendes Modell, das für 1 Billion Tokens in Finnisch, Englisch und Programmiersprachen trainiert wurde, und zeigen, dass ein multilinguales Training einen Ansatz liefern kann, der nicht nur die Fähigkeiten bestehender Modelle für Finnisch erheblich verbessert, sondern auch bei Übersetzungen herausragt und in seiner Klasse bei der Generierung von Englisch und Programmiersprachen wettbewerbsfähig ist. Wir veröffentlichen die Modellparameter, Skripte und Daten unter offenen Lizenzen auf https://huggingface.co/LumiOpen/Poro-34B.
English
The pretraining of state-of-the-art large language models now requires trillions of words of text, which is orders of magnitude more than available for the vast majority of languages. While including text in more than one language is an obvious way to acquire more pretraining data, multilinguality is often seen as a curse, and most model training efforts continue to focus near-exclusively on individual large languages. We believe that multilinguality can be a blessing and that it should be possible to substantially improve over the capabilities of monolingual models for small languages through multilingual training. In this study, we introduce Poro 34B, a 34 billion parameter model trained for 1 trillion tokens of Finnish, English, and programming languages, and demonstrate that a multilingual training approach can produce a model that not only substantially advances over the capabilities of existing models for Finnish, but also excels in translation and is competitive in its class in generating English and programming languages. We release the model parameters, scripts, and data under open licenses at https://huggingface.co/LumiOpen/Poro-34B.

Summary

AI-Generated Summary

PDF161November 26, 2024