ChatPaper.aiChatPaper

Статья 23: Открытые весовые наборы для продвижения многоязычного прогресса

Aya 23: Open Weight Releases to Further Multilingual Progress

May 23, 2024
Авторы: Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Kelly Marchisio, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker
cs.AI

Аннотация

Данный технический отчет представляет Aya 23, семейство мультиязычных языковых моделей. Aya 23 основана на недавнем выпуске модели Aya (Устюн и др., 2024), сосредотачиваясь на сочетании высокопроизводительной предварительно обученной модели с недавно выпущенной коллекцией Aya (Сингх и др., 2024). Результатом стало создание мощной мультиязычной крупной языковой модели, обслуживающей 23 языка, расширяя возможности языкового моделирования до приблизительно половины населения мира. Модель Aya охватывала 101 язык, в то время как Aya 23 является экспериментом в глубину против ширины, исследуя влияние выделения большего объема ресурсов для меньшего числа языков, включенных во время предварительного обучения. Aya 23 превосходит как предыдущие массово-мультиязычные модели, такие как Aya 101 для охваченных языков, так и широко используемые модели, такие как Gemma, Mistral и Mixtral, на широком спектре дискриминационных и генеративных задач. Мы публикуем открытые веса как для моделей 8B, так и для 35B в рамках нашего постоянного стремления расширить доступ к мультиязычному прогрессу.
English
This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (\"Ust\"un et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.

Summary

AI-Generated Summary

PDF321December 15, 2024