ChatPaper.aiChatPaper

Aurora-M: 米国大統領令に基づきレッドチーミングされた初のオープンソース多言語言語モデル

Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order

March 30, 2024
著者: Taishi Nakamura, Mayank Mishra, Simone Tedeschi, Yekun Chai, Jason T Stillerman, Felix Friedrich, Prateek Yadav, Tanmay Laud, Vu Minh Chien, Terry Yue Zhuo, Diganta Misra, Ben Bogin, Xuan-Son Vu, Marzena Karpinska, Arnav Varma Dantuluri, Wojciech Kusa, Tommaso Furlanello, Rio Yokota, Niklas Muennighoff, Suhas Pai, Tosin Adewumi, Veronika Laippala, Xiaozhe Yao, Adalberto Junior, Alpay Ariyak, Aleksandr Drozd, Jordan Clive, Kshitij Gupta, Liangyu Chen, Qi Sun, Ken Tsui, Noah Persaud, Nour Fahmy, Tianlong Chen, Mohit Bansal, Nicolo Monti, Tai Dang, Ziyang Luo, Tien-Tung Bui, Roberto Navigli, Virendra Mehta, Matthew Blumberg, Victor May, Huu Nguyen, Sampo Pyysalo
cs.AI

要旨

事前学習済み言語モデルは多くのAIアプリケーションの基盤となっているが、その学習に伴う高い計算コストがアクセシビリティを制限している。BLOOMやStarCoderといったイニシアチブは、共同コミュニティ開発のための事前学習済みモデルへのアクセスを民主化することを目指している。しかし、既存のモデルにはいくつかの課題がある:多言語対応の限界、継続的な事前学習による破滅的忘却、ゼロからの事前学習の計算コストの高さ、そしてAIの安全性と開発に関する法律への準拠である。本論文では、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、およびコードを対象に学習された15Bパラメータの多言語オープンソースモデルAurora-Mを紹介する。StarCoderPlusを基に4350億の追加トークンで継続的に事前学習されたAurora-Mは、総学習トークン数が2兆を超える。これは、人間によるレビューを経た安全性指示に基づいてファインチューニングされた初のオープンソース多言語モデルであり、従来のレッドチーミングの考慮事項だけでなく、バイデン・ハリス政権の「安全で信頼できる人工知能の開発と使用に関する大統領令」で示された特定の懸念にも沿った開発が行われている。Aurora-Mは、さまざまなタスクと言語において厳密に評価され、破滅的忘却に対する堅牢性を示し、特に安全性評価において多言語設定での代替モデルを上回る性能を発揮した。責任あるオープンソースLLM開発を促進するため、Aurora-Mとそのバリエーションはhttps://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 で公開されている。
English
Pretrained language models underpin several AI applications, but their high computational cost for training limits accessibility. Initiatives such as BLOOM and StarCoder aim to democratize access to pretrained models for collaborative community development. However, such existing models face challenges: limited multilingual capabilities, continual pretraining causing catastrophic forgetting, whereas pretraining from scratch is computationally expensive, and compliance with AI safety and development laws. This paper presents Aurora-M, a 15B parameter multilingual open-source model trained on English, Finnish, Hindi, Japanese, Vietnamese, and code. Continually pretrained from StarCoderPlus on 435 billion additional tokens, Aurora-M surpasses 2 trillion tokens in total training token count. It is the first open-source multilingual model fine-tuned on human-reviewed safety instructions, thus aligning its development not only with conventional red-teaming considerations, but also with the specific concerns articulated in the Biden-Harris Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. Aurora-M is rigorously evaluated across various tasks and languages, demonstrating robustness against catastrophic forgetting and outperforming alternatives in multilingual settings, particularly in safety evaluations. To promote responsible open-source LLM development, Aurora-M and its variants are released at https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 .

Summary

AI-Generated Summary

PDF431November 26, 2024