ChatPaper.aiChatPaper

Aya 23: Rilasci Open Weight per Avanzare il Progresso Multilingue

Aya 23: Open Weight Releases to Further Multilingual Progress

May 23, 2024
Autori: Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Kelly Marchisio, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker
cs.AI

Abstract

Questo rapporto tecnico introduce Aya 23, una famiglia di modelli linguistici multilingue. Aya 23 si basa sul recente rilascio del modello Aya ("Ust"ün et al., 2024), concentrandosi sull'abbinamento di un modello pre-addestrato ad alte prestazioni con la recentemente pubblicata collezione Aya (Singh et al., 2024). Il risultato è un potente modello linguistico di grandi dimensioni che supporta 23 lingue, estendendo le capacità all'avanguardia nella modellazione linguistica a circa metà della popolazione mondiale. Mentre il modello Aya copriva 101 lingue, Aya 23 rappresenta un esperimento tra profondità e ampiezza, esplorando l'impatto dell'allocazione di maggiore capacità a un numero ridotto di lingue incluse durante il pre-addestramento. Aya 23 supera sia i precedenti modelli massicciamente multilingue come Aya 101 per le lingue che copre, sia modelli ampiamente utilizzati come Gemma, Mistral e Mixtral in un'ampia gamma di task discriminativi e generativi. Rilasciamo i pesi open sia per i modelli da 8B che da 35B come parte del nostro impegno continuo per ampliare l'accesso ai progressi multilingue.
English
This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (\"Ust\"un et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.
PDF321December 15, 2024