Poro 34B en de zegening van meertaligheid
Poro 34B and the Blessing of Multilinguality
April 2, 2024
Auteurs: Risto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo
cs.AI
Samenvatting
Het vooraf trainen van state-of-the-art grote taalmodelen vereist nu
triljoenen woorden aan tekst, wat een veelvoud is van wat beschikbaar is
voor de overgrote meerderheid van talen. Hoewel het opnemen van tekst in meer dan één
taal een voor de hand liggende manier is om meer vooraf getrainde data te verkrijgen, wordt meertaligheid
vaak gezien als een vloek, en de meeste inspanningen voor het trainen van modellen blijven zich
bijna uitsluitend richten op individuele grote talen. Wij geloven dat meertaligheid
een zegen kan zijn en dat het mogelijk zou moeten zijn om de mogelijkheden van
eentalige modellen voor kleine talen aanzienlijk te verbeteren door middel van meertalige
training. In deze studie introduceren we Poro 34B, een model met 34 miljard parameters
getraind op 1 biljoen tokens van Fins, Engels en programmeertalen, en demonstreren we
dat een meertalige trainingsaanpak een model kan opleveren dat niet alleen aanzienlijk
voortbouwt op de mogelijkheden van bestaande modellen voor Fins, maar ook uitblinkt in
vertaling en competitief is in zijn klasse bij het genereren van Engels en programmeertalen.
We publiceren de modelparameters, scripts en data onder open licenties op
https://huggingface.co/LumiOpen/Poro-34B.
English
The pretraining of state-of-the-art large language models now requires
trillions of words of text, which is orders of magnitude more than available
for the vast majority of languages. While including text in more than one
language is an obvious way to acquire more pretraining data, multilinguality is
often seen as a curse, and most model training efforts continue to focus
near-exclusively on individual large languages. We believe that multilinguality
can be a blessing and that it should be possible to substantially improve over
the capabilities of monolingual models for small languages through multilingual
training. In this study, we introduce Poro 34B, a 34 billion parameter model
trained for 1 trillion tokens of Finnish, English, and programming languages,
and demonstrate that a multilingual training approach can produce a model that
not only substantially advances over the capabilities of existing models for
Finnish, but also excels in translation and is competitive in its class in
generating English and programming languages. We release the model parameters,
scripts, and data under open licenses at
https://huggingface.co/LumiOpen/Poro-34B.