Aya 23: Lanzamiento de pesos abiertos para impulsar el progreso multilingüe

Resumen

Este informe técnico presenta Aya 23, una familia de modelos de lenguaje multilingüe. Aya 23 se basa en el lanzamiento reciente del modelo Aya (\"Ust\"un et al., 2024), centrándose en combinar un modelo preentrenado de alto rendimiento con la colección Aya recientemente publicada (Singh et al., 2024). El resultado es un potente modelo de lenguaje grande multilingüe que abarca 23 idiomas, ampliando las capacidades de modelado de lenguaje de vanguardia a aproximadamente la mitad de la población mundial. Mientras que el modelo Aya cubría 101 idiomas, Aya 23 es un experimento en profundidad versus amplitud, explorando el impacto de asignar más capacidad a un menor número de idiomas incluidos durante el preentrenamiento. Aya 23 supera tanto a modelos multilingües masivos anteriores como Aya 101 en los idiomas que cubre, como a modelos ampliamente utilizados como Gemma, Mistral y Mixtral en una amplia gama de tareas discriminativas y generativas. Publicamos los pesos abiertos tanto para los modelos de 8B como de 35B como parte de nuestro compromiso continuo de ampliar el acceso al progreso multilingüe.

English

This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (\"Ust\"un et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.

Aya 23: Lanzamiento de pesos abiertos para impulsar el progreso multilingüe

Aya 23: Open Weight Releases to Further Multilingual Progress

Resumen

Support