Aya 23: Lançamentos de Pesos Abertos para Avançar o Progresso Multilíngue
Aya 23: Open Weight Releases to Further Multilingual Progress
May 23, 2024
Autores: Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Kelly Marchisio, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker
cs.AI
Resumo
Este relatório técnico apresenta o Aya 23, uma família de modelos de linguagem multilíngue. O Aya 23 se baseia no lançamento recente do modelo Aya (\"Ust\"un et al., 2024), com foco na combinação de um modelo pré-treinado de alto desempenho com a coleção Aya recentemente lançada (Singh et al., 2024). O resultado é um poderoso modelo de linguagem de grande escala que atende a 23 idiomas, expandindo as capacidades de modelagem de linguagem de ponta para aproximadamente metade da população mundial. Enquanto o modelo Aya cobria 101 idiomas, o Aya 23 é um experimento em profundidade versus abrangência, explorando o impacto de alocar mais capacidade a um número menor de idiomas incluídos durante o pré-treinamento. O Aya 23 supera tanto os modelos massivamente multilíngues anteriores, como o Aya 101, para os idiomas que cobre, quanto modelos amplamente utilizados, como Gemma, Mistral e Mixtral, em uma ampla gama de tarefas discriminativas e generativas. Disponibilizamos os pesos abertos para os modelos de 8B e 35B como parte de nosso compromisso contínuo em expandir o acesso ao progresso multilíngue.
English
This technical report introduces Aya 23, a family of multilingual language
models. Aya 23 builds on the recent release of the Aya model (\"Ust\"un et al.,
2024), focusing on pairing a highly performant pre-trained model with the
recently released Aya collection (Singh et al., 2024). The result is a powerful
multilingual large language model serving 23 languages, expanding state-of-art
language modeling capabilities to approximately half of the world's population.
The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs
breadth, exploring the impact of allocating more capacity to fewer languages
that are included during pre-training. Aya 23 outperforms both previous
massively multilingual models like Aya 101 for the languages it covers, as well
as widely used models like Gemma, Mistral and Mixtral on an extensive range of
discriminative and generative tasks. We release the open weights for both the
8B and 35B models as part of our continued commitment for expanding access to
multilingual progress.