Poro 34Bと多言語性の恩恵
Poro 34B and the Blessing of Multilinguality
April 2, 2024
著者: Risto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo
cs.AI
要旨
最先端の大規模言語モデルの事前学習には、現在、数兆語のテキストが必要とされており、これは大多数の言語で利用可能なデータ量を桁違いに上回っています。複数の言語のテキストを含めることは、より多くの事前学習データを取得するための明白な方法ですが、多言語性はしばしば「呪い」と見なされ、ほとんどのモデル学習の取り組みは、依然として個々の大規模言語にほぼ独占的に焦点を当てています。私たちは、多言語性は「祝福」となり得ると信じており、多言語学習を通じて、小規模言語における単一言語モデルの能力を大幅に向上させることが可能であると考えています。本研究では、フィンランド語、英語、およびプログラミング言語の1兆トークンで学習された340億パラメータのモデル「Poro 34B」を紹介し、多言語学習アプローチが、既存のフィンランド語モデルの能力を大幅に進化させるだけでなく、翻訳において優れ、英語およびプログラミング言語の生成においても同クラスで競争力のあるモデルを生み出せることを実証します。私たちは、モデルのパラメータ、スクリプト、およびデータをオープンライセンスで公開しています。詳細はhttps://huggingface.co/LumiOpen/Poro-34Bをご覧ください。
English
The pretraining of state-of-the-art large language models now requires
trillions of words of text, which is orders of magnitude more than available
for the vast majority of languages. While including text in more than one
language is an obvious way to acquire more pretraining data, multilinguality is
often seen as a curse, and most model training efforts continue to focus
near-exclusively on individual large languages. We believe that multilinguality
can be a blessing and that it should be possible to substantially improve over
the capabilities of monolingual models for small languages through multilingual
training. In this study, we introduce Poro 34B, a 34 billion parameter model
trained for 1 trillion tokens of Finnish, English, and programming languages,
and demonstrate that a multilingual training approach can produce a model that
not only substantially advances over the capabilities of existing models for
Finnish, but also excels in translation and is competitive in its class in
generating English and programming languages. We release the model parameters,
scripts, and data under open licenses at
https://huggingface.co/LumiOpen/Poro-34B.Summary
AI-Generated Summary