Conjunto de Datos Aya: Una Colección de Acceso Abierto para el Ajuste de Instrucciones Multilingüe
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning
February 9, 2024
Autores: Shivalika Singh, Freddie Vargus, Daniel Dsouza, Börje F. Karlsson, Abinaya Mahendiran, Wei-Yin Ko, Herumb Shandilya, Jay Patel, Deividas Mataciunas, Laura OMahony, Mike Zhang, Ramith Hettiarachchi, Joseph Wilson, Marina Machado, Luisa Souza Moura, Dominik Krzemiński, Hakimeh Fadaei, Irem Ergün, Ifeoma Okoh, Aisha Alaagib, Oshan Mudannayake, Zaid Alyafeai, Vu Minh Chien, Sebastian Ruder, Surya Guthikonda, Emad A. Alghamdi, Sebastian Gehrmann, Niklas Muennighoff, Max Bartolo, Julia Kreutzer, Ahmet Üstün, Marzieh Fadaee, Sara Hooker
cs.AI
Resumen
Los conjuntos de datos son fundamentales para muchos avances en la inteligencia artificial moderna. Muchos de los logros recientes en el ámbito del procesamiento del lenguaje natural (PLN) pueden atribuirse al ajuste fino de modelos preentrenados en un conjunto diverso de tareas que permite a un modelo de lenguaje grande (LLM, por sus siglas en inglés) responder a instrucciones. El ajuste fino basado en instrucciones (IFT, por sus siglas en inglés) requiere conjuntos de datos específicamente construidos y anotados. Sin embargo, los conjuntos de datos existentes están casi todos en inglés. En este trabajo, nuestro objetivo principal es cerrar la brecha lingüística mediante la creación de un conjunto de datos de seguimiento de instrucciones curado por humanos que abarca 65 idiomas. Trabajamos con hablantes fluidos de idiomas de todo el mundo para recopilar ejemplos naturales de instrucciones y sus respuestas. Además, creamos la colección multilingüe más extensa hasta la fecha, que comprende 513 millones de instancias mediante la creación de plantillas y la traducción de conjuntos de datos existentes en 114 idiomas. En total, contribuimos con cuatro recursos clave: desarrollamos y publicamos la Plataforma de Anotación Aya, el Conjunto de Datos Aya, la Colección Aya y el Kit de Evaluación Aya. La iniciativa Aya también sirve como un valioso estudio de caso en investigación participativa, involucrando a colaboradores de 119 países. Vemos esto como un marco valioso para futuras colaboraciones de investigación que busquen cerrar brechas en los recursos.
English
Datasets are foundational to many breakthroughs in modern artificial
intelligence. Many recent achievements in the space of natural language
processing (NLP) can be attributed to the finetuning of pre-trained models on a
diverse set of tasks that enables a large language model (LLM) to respond to
instructions. Instruction fine-tuning (IFT) requires specifically constructed
and annotated datasets. However, existing datasets are almost all in the
English language. In this work, our primary goal is to bridge the language gap
by building a human-curated instruction-following dataset spanning 65
languages. We worked with fluent speakers of languages from around the world to
collect natural instances of instructions and completions. Furthermore, we
create the most extensive multilingual collection to date, comprising 513
million instances through templating and translating existing datasets across
114 languages. In total, we contribute four key resources: we develop and
open-source the Aya Annotation Platform, the Aya Dataset, the Aya Collection,
and the Aya Evaluation Suite. The Aya initiative also serves as a valuable case
study in participatory research, involving collaborators from 119 countries. We
see this as a valuable framework for future research collaborations that aim to
bridge gaps in resources.