ChatPaper.aiChatPaper

Modèle Aya : Un modèle de langage multilingue en accès libre affiné par instruction

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

February 12, 2024
Auteurs: Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker
cs.AI

Résumé

Les récentes avancées dans les modèles de langage de grande taille (LLM) se sont concentrées sur un petit nombre de langues riches en données. Que faut-il pour élargir l'accès à ces avancées au-delà des langues dites de première catégorie ? Notre travail présente Aya, un modèle de langage génératif massivement multilingue capable de suivre des instructions dans 101 langues, dont plus de 50 % sont considérées comme étant à ressources limitées. Aya surpasse mT0 et BLOOMZ sur la majorité des tâches tout en couvrant deux fois plus de langues. Nous introduisons de nouvelles suites d'évaluation approfondies qui élargissent l'état de l'art en matière d'évaluation multilingue à travers 99 langues — incluant des tâches discriminatives et génératives, des évaluations humaines, ainsi que des taux de victoire simulés couvrant à la fois les tâches hors distribution et les performances en distribution. De plus, nous menons des investigations détaillées sur la composition optimale des mélanges de fine-tuning, l'élagage des données, ainsi que sur la toxicité, les biais et la sécurité de nos modèles. Nous mettons à disposition en open source nos ensembles de données d'instructions et notre modèle à l'adresse suivante : https://hf.co/CohereForAI/aya-101.
English
Recent breakthroughs in large language models (LLMs) have centered around a handful of data-rich languages. What does it take to broaden access to breakthroughs beyond first-class citizen languages? Our work introduces Aya, a massively multilingual generative language model that follows instructions in 101 languages of which over 50% are considered as lower-resourced. Aya outperforms mT0 and BLOOMZ on the majority of tasks while covering double the number of languages. We introduce extensive new evaluation suites that broaden the state-of-art for multilingual eval across 99 languages -- including discriminative and generative tasks, human evaluation, and simulated win rates that cover both held-out tasks and in-distribution performance. Furthermore, we conduct detailed investigations on the optimal finetuning mixture composition, data pruning, as well as the toxicity, bias, and safety of our models. We open-source our instruction datasets and our model at https://hf.co/CohereForAI/aya-101
PDF492December 15, 2024