ChatPaper.aiChatPaper

Aya 23 : Publications de modèles open weight pour accélérer les avancées multilingues

Aya 23: Open Weight Releases to Further Multilingual Progress

May 23, 2024
papers.authors: Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Kelly Marchisio, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker
cs.AI

papers.abstract

Ce rapport technique présente Aya 23, une famille de modèles de langage multilingues. Aya 23 s'appuie sur la récente publication du modèle Aya (\"Ust\"un et al., 2024), en se concentrant sur l'association d'un modèle pré-entraîné hautement performant avec la collection Aya récemment publiée (Singh et al., 2024). Le résultat est un modèle de langage massif multilingue puissant desservant 23 langues, étendant les capacités de modélisation du langage de pointe à environ la moitié de la population mondiale. Le modèle Aya couvrait 101 langues, tandis qu'Aya 23 est une expérience en profondeur contre étendue, explorant l'impact de l'allocation de plus de capacité à un nombre réduit de langues incluses lors du pré-entraînement. Aya 23 surpasse à la fois les modèles multilingues massifs précédents comme Aya 101 pour les langues qu'il couvre, ainsi que les modèles largement utilisés comme Gemma, Mistral et Mixtral sur une vaste gamme de tâches discriminatives et génératives. Nous publions les poids ouverts pour les modèles 8B et 35B dans le cadre de notre engagement continu à élargir l'accès aux progrès multilingues.
English
This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (\"Ust\"un et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.
PDF321December 15, 2024