Aurora-M: 米国大統領令に基づきレッドチーミングされた初のオープンソース多言語言語モデルAurora-M: The First Open Source Multilingual Language Model Red-teamed
according to the U.S. Executive Order
事前学習済み言語モデルは多くのAIアプリケーションの基盤となっているが、その学習に伴う高い計算コストがアクセシビリティを制限している。BLOOMやStarCoderといったイニシアチブは、共同コミュニティ開発のための事前学習済みモデルへのアクセスを民主化することを目指している。しかし、既存のモデルにはいくつかの課題がある:多言語対応の限界、継続的な事前学習による破滅的忘却、ゼロからの事前学習の計算コストの高さ、そしてAIの安全性と開発に関する法律への準拠である。本論文では、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、およびコードを対象に学習された15Bパラメータの多言語オープンソースモデルAurora-Mを紹介する。StarCoderPlusを基に4350億の追加トークンで継続的に事前学習されたAurora-Mは、総学習トークン数が2兆を超える。これは、人間によるレビューを経た安全性指示に基づいてファインチューニングされた初のオープンソース多言語モデルであり、従来のレッドチーミングの考慮事項だけでなく、バイデン・ハリス政権の「安全で信頼できる人工知能の開発と使用に関する大統領令」で示された特定の懸念にも沿った開発が行われている。Aurora-Mは、さまざまなタスクと言語において厳密に評価され、破滅的忘却に対する堅牢性を示し、特に安全性評価において多言語設定での代替モデルを上回る性能を発揮した。責任あるオープンソースLLM開発を促進するため、Aurora-Mとそのバリエーションはhttps://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 で公開されている。