ChatPaper.aiChatPaper

Aya 23: 다국어 발전을 위한 오픈 웨이트 릴리스

Aya 23: Open Weight Releases to Further Multilingual Progress

May 23, 2024
저자: Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Kelly Marchisio, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker
cs.AI

초록

이 기술 보고서는 다국어 언어 모델 패밀리인 Aya 23을 소개합니다. Aya 23은 최근 출시된 Aya 모델(Ust"un et al., 2024)을 기반으로, 고성능 사전 학습 모델과 최근 공개된 Aya 컬렉션(Singh et al., 2024)을 결합하는 데 초점을 맞추고 있습니다. 그 결과, 23개 언어를 지원하는 강력한 다국어 대형 언어 모델이 탄생했으며, 이는 세계 인구의 약 절반에 해당하는 언어 모델링 기술의 최첨단을 확장합니다. Aya 모델은 101개 언어를 커버했던 반면, Aya 23은 깊이 대 폭의 실험으로, 사전 학습 중 포함된 적은 수의 언어에 더 많은 용량을 할당하는 것이 미치는 영향을 탐구합니다. Aya 23은 커버하는 언어에 대해 이전의 대규모 다국어 모델인 Aya 101뿐만 아니라 Gemma, Mistral, Mixtral과 같은 널리 사용되는 모델들도 다양한 판별 및 생성 작업에서 능가합니다. 우리는 다국어 발전에 대한 접근성을 확대하기 위한 지속적인 노력의 일환으로 8B 및 35B 모델의 오픈 가중치를 공개합니다.
English
This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (\"Ust\"un et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.

Summary

AI-Generated Summary

PDF321December 15, 2024