ChatPaper.aiChatPaper

Aurora-M : Le premier modèle de langage multilingue open source soumis à un test d'évaluation critique conformément au décret exécutif américain

Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order

March 30, 2024
Auteurs: Taishi Nakamura, Mayank Mishra, Simone Tedeschi, Yekun Chai, Jason T Stillerman, Felix Friedrich, Prateek Yadav, Tanmay Laud, Vu Minh Chien, Terry Yue Zhuo, Diganta Misra, Ben Bogin, Xuan-Son Vu, Marzena Karpinska, Arnav Varma Dantuluri, Wojciech Kusa, Tommaso Furlanello, Rio Yokota, Niklas Muennighoff, Suhas Pai, Tosin Adewumi, Veronika Laippala, Xiaozhe Yao, Adalberto Junior, Alpay Ariyak, Aleksandr Drozd, Jordan Clive, Kshitij Gupta, Liangyu Chen, Qi Sun, Ken Tsui, Noah Persaud, Nour Fahmy, Tianlong Chen, Mohit Bansal, Nicolo Monti, Tai Dang, Ziyang Luo, Tien-Tung Bui, Roberto Navigli, Virendra Mehta, Matthew Blumberg, Victor May, Huu Nguyen, Sampo Pyysalo
cs.AI

Résumé

Les modèles de langage pré-entraînés constituent la base de plusieurs applications d'IA, mais leur coût de calcul élevé pour l'entraînement limite leur accessibilité. Des initiatives telles que BLOOM et StarCoder visent à démocratiser l'accès aux modèles pré-entraînés pour un développement communautaire collaboratif. Cependant, ces modèles existants rencontrent des défis : des capacités multilingues limitées, un pré-entraînement continu entraînant un oubli catastrophique, tandis qu'un pré-entraînement à partir de zéro est coûteux en calcul, et la conformité aux lois sur la sécurité et le développement de l'IA. Ce document présente Aurora-M, un modèle open-source multilingue de 15 milliards de paramètres entraîné sur l'anglais, le finnois, l'hindi, le japonais, le vietnamien et le code. Pré-entraîné continuellement à partir de StarCoderPlus sur 435 milliards de tokens supplémentaires, Aurora-M dépasse les 2 000 milliards de tokens dans le total des tokens d'entraînement. Il s'agit du premier modèle open-source multilingue affiné sur des instructions de sécurité examinées par des humains, alignant ainsi son développement non seulement sur les considérations conventionnelles de red-teaming, mais aussi sur les préoccupations spécifiques exprimées dans l'ordre exécutif Biden-Harris sur le développement et l'utilisation sûrs, sécurisés et dignes de confiance de l'intelligence artificielle. Aurora-M est rigoureusement évalué sur diverses tâches et langues, démontrant une robustesse contre l'oubli catastrophique et surpassant les alternatives dans des contextes multilingues, en particulier dans les évaluations de sécurité. Pour promouvoir un développement responsable des LLM open-source, Aurora-M et ses variantes sont publiés sur https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407.
English
Pretrained language models underpin several AI applications, but their high computational cost for training limits accessibility. Initiatives such as BLOOM and StarCoder aim to democratize access to pretrained models for collaborative community development. However, such existing models face challenges: limited multilingual capabilities, continual pretraining causing catastrophic forgetting, whereas pretraining from scratch is computationally expensive, and compliance with AI safety and development laws. This paper presents Aurora-M, a 15B parameter multilingual open-source model trained on English, Finnish, Hindi, Japanese, Vietnamese, and code. Continually pretrained from StarCoderPlus on 435 billion additional tokens, Aurora-M surpasses 2 trillion tokens in total training token count. It is the first open-source multilingual model fine-tuned on human-reviewed safety instructions, thus aligning its development not only with conventional red-teaming considerations, but also with the specific concerns articulated in the Biden-Harris Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. Aurora-M is rigorously evaluated across various tasks and languages, demonstrating robustness against catastrophic forgetting and outperforming alternatives in multilingual settings, particularly in safety evaluations. To promote responsible open-source LLM development, Aurora-M and its variants are released at https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 .

Summary

AI-Generated Summary

PDF431November 26, 2024