Aya 23: 多言語進展に向けたオープンウェイトのリリース
Aya 23: Open Weight Releases to Further Multilingual Progress
May 23, 2024
著者: Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Kelly Marchisio, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker
cs.AI
要旨
本技術報告書では、多言語対応の言語モデルファミリーであるAya 23を紹介する。Aya 23は、最近リリースされたAyaモデル(Ust\"un et al., 2024)を基盤としており、高性能な事前学習済みモデルと新たに公開されたAyaコレクション(Singh et al., 2024)を組み合わせることに焦点を当てている。その結果、23の言語に対応する強力な多言語大規模言語モデルが構築され、世界人口の約半数に及ぶ最先端の言語モデリング能力が拡張された。Ayaモデルは101の言語をカバーしていたが、Aya 23は「深さ vs 広さ」の実験として、事前学習中に含まれる言語数を減らし、その分の容量を割り当てる影響を探求している。Aya 23は、カバーする言語において、以前の大規模多言語モデルであるAya 101を上回るだけでなく、Gemma、Mistral、Mixtralなどの広く使用されているモデルをも、多岐にわたる識別タスクおよび生成タスクにおいて凌駕している。我々は、多言語進展へのアクセス拡大への継続的な取り組みの一環として、8Bおよび35Bモデルのオープンウェイトを公開する。
English
This technical report introduces Aya 23, a family of multilingual language
models. Aya 23 builds on the recent release of the Aya model (\"Ust\"un et al.,
2024), focusing on pairing a highly performant pre-trained model with the
recently released Aya collection (Singh et al., 2024). The result is a powerful
multilingual large language model serving 23 languages, expanding state-of-art
language modeling capabilities to approximately half of the world's population.
The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs
breadth, exploring the impact of allocating more capacity to fewer languages
that are included during pre-training. Aya 23 outperforms both previous
massively multilingual models like Aya 101 for the languages it covers, as well
as widely used models like Gemma, Mistral and Mixtral on an extensive range of
discriminative and generative tasks. We release the open weights for both the
8B and 35B models as part of our continued commitment for expanding access to
multilingual progress.Summary
AI-Generated Summary