ChatPaper.aiChatPaper

Aya 데이터셋: 다국어 명령어 튜닝을 위한 오픈 액세스 컬렉션

Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

February 9, 2024
저자: Shivalika Singh, Freddie Vargus, Daniel Dsouza, Börje F. Karlsson, Abinaya Mahendiran, Wei-Yin Ko, Herumb Shandilya, Jay Patel, Deividas Mataciunas, Laura OMahony, Mike Zhang, Ramith Hettiarachchi, Joseph Wilson, Marina Machado, Luisa Souza Moura, Dominik Krzemiński, Hakimeh Fadaei, Irem Ergün, Ifeoma Okoh, Aisha Alaagib, Oshan Mudannayake, Zaid Alyafeai, Vu Minh Chien, Sebastian Ruder, Surya Guthikonda, Emad A. Alghamdi, Sebastian Gehrmann, Niklas Muennighoff, Max Bartolo, Julia Kreutzer, Ahmet Üstün, Marzieh Fadaee, Sara Hooker
cs.AI

초록

데이터셋은 현대 인공지능의 많은 혁신적 발전의 기반이 됩니다. 최근 자연어 처리(NLP) 분야에서의 성과들은 대부분 사전 훈련된 모델을 다양한 작업에 맞게 미세 조정함으로써 대형 언어 모델(LLM)이 명령에 응답할 수 있도록 한 데 기인합니다. 명령어 미세 조정(IFT)은 특별히 구성되고 주석이 달린 데이터셋을 필요로 합니다. 그러나 기존 데이터셋은 거의 모두 영어로 되어 있습니다. 본 연구의 주요 목표는 65개 언어에 걸친 인간이 직접 주석을 단 명령어 수행 데이터셋을 구축하여 언어 간 격차를 해소하는 것입니다. 우리는 전 세계의 유창한 언어 사용자들과 협력하여 자연스러운 명령어와 완성 예시를 수집했습니다. 더 나아가, 기존 데이터셋을 템플릿화하고 114개 언어로 번역하여 5억 1,300만 개의 예시로 구성된 가장 방대한 다국어 컬렉션을 생성했습니다. 총 네 가지 주요 리소스를 제공합니다: Aya 주석 플랫폼, Aya 데이터셋, Aya 컬렉션, 그리고 Aya 평가 도구를 개발하고 오픈소스로 공개합니다. Aya 프로젝트는 또한 119개국에서 온 협력자들이 참여한 참여형 연구의 가치 있는 사례 연구로도 기능합니다. 우리는 이를 자원 격차를 해소하고자 하는 미래 연구 협력을 위한 유용한 프레임워크로 보고 있습니다.
English
Datasets are foundational to many breakthroughs in modern artificial intelligence. Many recent achievements in the space of natural language processing (NLP) can be attributed to the finetuning of pre-trained models on a diverse set of tasks that enables a large language model (LLM) to respond to instructions. Instruction fine-tuning (IFT) requires specifically constructed and annotated datasets. However, existing datasets are almost all in the English language. In this work, our primary goal is to bridge the language gap by building a human-curated instruction-following dataset spanning 65 languages. We worked with fluent speakers of languages from around the world to collect natural instances of instructions and completions. Furthermore, we create the most extensive multilingual collection to date, comprising 513 million instances through templating and translating existing datasets across 114 languages. In total, we contribute four key resources: we develop and open-source the Aya Annotation Platform, the Aya Dataset, the Aya Collection, and the Aya Evaluation Suite. The Aya initiative also serves as a valuable case study in participatory research, involving collaborators from 119 countries. We see this as a valuable framework for future research collaborations that aim to bridge gaps in resources.
PDF571December 15, 2024