MURI: Conjuntos de Datos de Ajuste de Instrucciones de Alta Calidad para Idiomas de Recursos Limitados a través de Instrucciones Inversas
MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions
September 19, 2024
Autores: Abdullatif Köksal, Marion Thaler, Ayyoob Imani, Ahmet Üstün, Anna Korhonen, Hinrich Schütze
cs.AI
Resumen
La optimización de instrucciones mejora los modelos de lenguaje grandes (LLMs) al alinearlos con las preferencias humanas en diversas tareas. Los enfoques tradicionales para crear conjuntos de datos de optimización de instrucciones enfrentan desafíos significativos para los idiomas con recursos limitados debido a su dependencia de la anotación de datos. Este trabajo introduce un método novedoso, Instrucciones Reversas Multilingües (MURI), que genera conjuntos de datos de optimización de instrucciones de alta calidad para idiomas con recursos limitados sin necesidad de anotadores humanos o modelos multilingües preexistentes. Utilizando instrucciones reversas y un pipeline de traducción, MURI produce pares de instrucciones-salida a partir de textos escritos por humanos en idiomas con recursos limitados. Este método garantiza relevancia cultural y diversidad al obtener textos de diferentes dominios nativos y aplicar filtros para eliminar contenido inapropiado. Nuestro conjunto de datos, MURI-IT, incluye más de 2 millones de pares de instrucciones-salida en 200 idiomas. La evaluación por hablantes nativos y experimentos de ajuste fino con modelos mT5 demuestran la efectividad del enfoque tanto para ULN como para generación abierta. Publicamos los conjuntos de datos y modelos en https://github.com/akoksal/muri.
English
Instruction tuning enhances large language models (LLMs) by aligning them
with human preferences across diverse tasks. Traditional approaches to create
instruction tuning datasets face serious challenges for low-resource languages
due to their dependence on data annotation. This work introduces a novel
method, Multilingual Reverse Instructions (MURI), which generates high-quality
instruction tuning datasets for low-resource languages without requiring human
annotators or pre-existing multilingual models. Utilizing reverse instructions
and a translation pipeline, MURI produces instruction-output pairs from
existing human-written texts in low-resource languages. This method ensures
cultural relevance and diversity by sourcing texts from different native
domains and applying filters to eliminate inappropriate content. Our dataset,
MURI-IT, includes more than 2 million instruction-output pairs across 200
languages. Evaluation by native speakers and fine-tuning experiments with mT5
models demonstrate the approach's effectiveness for both NLU and open-ended
generation. We publicly release datasets and models at
https://github.com/akoksal/muri.Summary
AI-Generated Summary