ChatPaper.aiChatPaper

Aya 23: Open Gewicht Releases om Meertalige Vooruitgang te Bevorderen

Aya 23: Open Weight Releases to Further Multilingual Progress

May 23, 2024
Auteurs: Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Kelly Marchisio, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker
cs.AI

Samenvatting

Dit technisch rapport introduceert Aya 23, een familie van meertalige taalmodelen. Aya 23 bouwt voort op de recente release van het Aya-model (\"Ust\"un et al., 2024), met een focus op het combineren van een hoogpresterend voorgetraind model met de onlangs vrijgegeven Aya-collectie (Singh et al., 2024). Het resultaat is een krachtig meertalig groot taalmodel dat 23 talen ondersteunt, waarmee de state-of-the-art mogelijkheden op het gebied van taalmodeling worden uitgebreid tot ongeveer de helft van de wereldbevolking. Het Aya-model omvatte 101 talen, terwijl Aya 23 een experiment is in diepte versus breedte, waarbij wordt onderzocht wat het effect is van het toewijzen van meer capaciteit aan minder talen die tijdens het vooraf trainen worden meegenomen. Aya 23 presteert beter dan zowel eerdere massaal meertalige modellen zoals Aya 101 voor de talen die het ondersteunt, als veelgebruikte modellen zoals Gemma, Mistral en Mixtral op een breed scala aan discriminerende en generatieve taken. We maken de open gewichten beschikbaar voor zowel de 8B- als de 35B-modellen, als onderdeel van onze voortdurende inzet om de toegang tot meertalige vooruitgang te vergroten.
English
This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (\"Ust\"un et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.
PDF321December 15, 2024