Conjunto de Datos Aya: Una Colección de Acceso Abierto para el Ajuste de Instrucciones MultilingüeAya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning
Los conjuntos de datos son fundamentales para muchos avances en la inteligencia artificial moderna. Muchos de los logros recientes en el ámbito del procesamiento del lenguaje natural (PLN) pueden atribuirse al ajuste fino de modelos preentrenados en un conjunto diverso de tareas que permite a un modelo de lenguaje grande (LLM, por sus siglas en inglés) responder a instrucciones. El ajuste fino basado en instrucciones (IFT, por sus siglas en inglés) requiere conjuntos de datos específicamente construidos y anotados. Sin embargo, los conjuntos de datos existentes están casi todos en inglés. En este trabajo, nuestro objetivo principal es cerrar la brecha lingüística mediante la creación de un conjunto de datos de seguimiento de instrucciones curado por humanos que abarca 65 idiomas. Trabajamos con hablantes fluidos de idiomas de todo el mundo para recopilar ejemplos naturales de instrucciones y sus respuestas. Además, creamos la colección multilingüe más extensa hasta la fecha, que comprende 513 millones de instancias mediante la creación de plantillas y la traducción de conjuntos de datos existentes en 114 idiomas. En total, contribuimos con cuatro recursos clave: desarrollamos y publicamos la Plataforma de Anotación Aya, el Conjunto de Datos Aya, la Colección Aya y el Kit de Evaluación Aya. La iniciativa Aya también sirve como un valioso estudio de caso en investigación participativa, involucrando a colaboradores de 119 países. Vemos esto como un marco valioso para futuras colaboraciones de investigación que busquen cerrar brechas en los recursos.