MURI: Conjuntos de Datos de Ajuste de Instrucciones de Alta Calidad para Idiomas de Recursos Limitados a través de Instrucciones Inversas

Resumen

La optimización de instrucciones mejora los modelos de lenguaje grandes (LLMs) al alinearlos con las preferencias humanas en diversas tareas. Los enfoques tradicionales para crear conjuntos de datos de optimización de instrucciones enfrentan desafíos significativos para los idiomas con recursos limitados debido a su dependencia de la anotación de datos. Este trabajo introduce un método novedoso, Instrucciones Reversas Multilingües (MURI), que genera conjuntos de datos de optimización de instrucciones de alta calidad para idiomas con recursos limitados sin necesidad de anotadores humanos o modelos multilingües preexistentes. Utilizando instrucciones reversas y un pipeline de traducción, MURI produce pares de instrucciones-salida a partir de textos escritos por humanos en idiomas con recursos limitados. Este método garantiza relevancia cultural y diversidad al obtener textos de diferentes dominios nativos y aplicar filtros para eliminar contenido inapropiado. Nuestro conjunto de datos, MURI-IT, incluye más de 2 millones de pares de instrucciones-salida en 200 idiomas. La evaluación por hablantes nativos y experimentos de ajuste fino con modelos mT5 demuestran la efectividad del enfoque tanto para ULN como para generación abierta. Publicamos los conjuntos de datos y modelos en https://github.com/akoksal/muri.

English

Instruction tuning enhances large language models (LLMs) by aligning them with human preferences across diverse tasks. Traditional approaches to create instruction tuning datasets face serious challenges for low-resource languages due to their dependence on data annotation. This work introduces a novel method, Multilingual Reverse Instructions (MURI), which generates high-quality instruction tuning datasets for low-resource languages without requiring human annotators or pre-existing multilingual models. Utilizing reverse instructions and a translation pipeline, MURI produces instruction-output pairs from existing human-written texts in low-resource languages. This method ensures cultural relevance and diversity by sourcing texts from different native domains and applying filters to eliminate inappropriate content. Our dataset, MURI-IT, includes more than 2 million instruction-output pairs across 200 languages. Evaluation by native speakers and fine-tuning experiments with mT5 models demonstrate the approach's effectiveness for both NLU and open-ended generation. We publicly release datasets and models at https://github.com/akoksal/muri.

MURI: Conjuntos de Datos de Ajuste de Instrucciones de Alta Calidad para Idiomas de Recursos Limitados a través de Instrucciones Inversas

MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions

Resumen

Support