Conjunto de Datos Aya: Una Colección de Acceso Abierto para el Ajuste de Instrucciones Multilingüe

Resumen

Los conjuntos de datos son fundamentales para muchos avances en la inteligencia artificial moderna. Muchos de los logros recientes en el ámbito del procesamiento del lenguaje natural (PLN) pueden atribuirse al ajuste fino de modelos preentrenados en un conjunto diverso de tareas que permite a un modelo de lenguaje grande (LLM, por sus siglas en inglés) responder a instrucciones. El ajuste fino basado en instrucciones (IFT, por sus siglas en inglés) requiere conjuntos de datos específicamente construidos y anotados. Sin embargo, los conjuntos de datos existentes están casi todos en inglés. En este trabajo, nuestro objetivo principal es cerrar la brecha lingüística mediante la creación de un conjunto de datos de seguimiento de instrucciones curado por humanos que abarca 65 idiomas. Trabajamos con hablantes fluidos de idiomas de todo el mundo para recopilar ejemplos naturales de instrucciones y sus respuestas. Además, creamos la colección multilingüe más extensa hasta la fecha, que comprende 513 millones de instancias mediante la creación de plantillas y la traducción de conjuntos de datos existentes en 114 idiomas. En total, contribuimos con cuatro recursos clave: desarrollamos y publicamos la Plataforma de Anotación Aya, el Conjunto de Datos Aya, la Colección Aya y el Kit de Evaluación Aya. La iniciativa Aya también sirve como un valioso estudio de caso en investigación participativa, involucrando a colaboradores de 119 países. Vemos esto como un marco valioso para futuras colaboraciones de investigación que busquen cerrar brechas en los recursos.

English

Datasets are foundational to many breakthroughs in modern artificial intelligence. Many recent achievements in the space of natural language processing (NLP) can be attributed to the finetuning of pre-trained models on a diverse set of tasks that enables a large language model (LLM) to respond to instructions. Instruction fine-tuning (IFT) requires specifically constructed and annotated datasets. However, existing datasets are almost all in the English language. In this work, our primary goal is to bridge the language gap by building a human-curated instruction-following dataset spanning 65 languages. We worked with fluent speakers of languages from around the world to collect natural instances of instructions and completions. Furthermore, we create the most extensive multilingual collection to date, comprising 513 million instances through templating and translating existing datasets across 114 languages. In total, we contribute four key resources: we develop and open-source the Aya Annotation Platform, the Aya Dataset, the Aya Collection, and the Aya Evaluation Suite. The Aya initiative also serves as a valuable case study in participatory research, involving collaborators from 119 countries. We see this as a valuable framework for future research collaborations that aim to bridge gaps in resources.

Conjunto de Datos Aya: Una Colección de Acceso Abierto para el Ajuste de Instrucciones Multilingüe

Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

Resumen

Support