Conjunto de Dados Aya: Uma Coleção de Acesso Aberto para Ajuste de Instruções Multilíngue
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning
February 9, 2024
Autores: Shivalika Singh, Freddie Vargus, Daniel Dsouza, Börje F. Karlsson, Abinaya Mahendiran, Wei-Yin Ko, Herumb Shandilya, Jay Patel, Deividas Mataciunas, Laura OMahony, Mike Zhang, Ramith Hettiarachchi, Joseph Wilson, Marina Machado, Luisa Souza Moura, Dominik Krzemiński, Hakimeh Fadaei, Irem Ergün, Ifeoma Okoh, Aisha Alaagib, Oshan Mudannayake, Zaid Alyafeai, Vu Minh Chien, Sebastian Ruder, Surya Guthikonda, Emad A. Alghamdi, Sebastian Gehrmann, Niklas Muennighoff, Max Bartolo, Julia Kreutzer, Ahmet Üstün, Marzieh Fadaee, Sara Hooker
cs.AI
Resumo
Conjuntos de dados são fundamentais para muitos avanços na inteligência artificial moderna. Muitas conquistas recentes no campo do processamento de linguagem natural (PLN) podem ser atribuídas ao ajuste fino de modelos pré-treinados em um conjunto diversificado de tarefas que permite a um modelo de linguagem de grande escala (LLM) responder a instruções. O ajuste fino por instrução (IFT) requer conjuntos de dados especificamente construídos e anotados. No entanto, os conjuntos de dados existentes são quase todos em inglês. Neste trabalho, nosso principal objetivo é preencher a lacuna linguística criando um conjunto de dados de seguimento de instruções, curado por humanos, abrangendo 65 idiomas. Trabalhamos com falantes fluentes de idiomas de todo o mundo para coletar exemplos naturais de instruções e suas conclusões. Além disso, criamos a coleção multilíngue mais extensa até o momento, compreendendo 513 milhões de instâncias, por meio da modelagem e tradução de conjuntos de dados existentes em 114 idiomas. No total, contribuímos com quatro recursos principais: desenvolvemos e disponibilizamos publicamente a Plataforma de Anotação Aya, o Conjunto de Dados Aya, a Coleção Aya e o Suíte de Avaliação Aya. A iniciativa Aya também serve como um valioso estudo de caso em pesquisa participativa, envolvendo colaboradores de 119 países. Vemos isso como um valioso modelo para futuras colaborações de pesquisa que visam preencher lacunas em recursos.
English
Datasets are foundational to many breakthroughs in modern artificial
intelligence. Many recent achievements in the space of natural language
processing (NLP) can be attributed to the finetuning of pre-trained models on a
diverse set of tasks that enables a large language model (LLM) to respond to
instructions. Instruction fine-tuning (IFT) requires specifically constructed
and annotated datasets. However, existing datasets are almost all in the
English language. In this work, our primary goal is to bridge the language gap
by building a human-curated instruction-following dataset spanning 65
languages. We worked with fluent speakers of languages from around the world to
collect natural instances of instructions and completions. Furthermore, we
create the most extensive multilingual collection to date, comprising 513
million instances through templating and translating existing datasets across
114 languages. In total, we contribute four key resources: we develop and
open-source the Aya Annotation Platform, the Aya Dataset, the Aya Collection,
and the Aya Evaluation Suite. The Aya initiative also serves as a valuable case
study in participatory research, involving collaborators from 119 countries. We
see this as a valuable framework for future research collaborations that aim to
bridge gaps in resources.