MURI: Conjuntos de Dados de Ajuste de Instruções de Alta Qualidade para Idiomas de Baixos Recursos por Meio de Instruções Reversas
MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions
September 19, 2024
Autores: Abdullatif Köksal, Marion Thaler, Ayyoob Imani, Ahmet Üstün, Anna Korhonen, Hinrich Schütze
cs.AI
Resumo
A afinação de instruções aprimora modelos de linguagem grandes (LLMs) alinhando-os com as preferências humanas em diversas tarefas. Abordagens tradicionais para criar conjuntos de dados de afinação de instruções enfrentam sérios desafios para idiomas com poucos recursos devido à dependência de anotação de dados. Este trabalho apresenta um método inovador, Instruções Multilíngues Reversas (MURI), que gera conjuntos de dados de afinação de instruções de alta qualidade para idiomas com poucos recursos sem a necessidade de anotadores humanos ou modelos multilíngues pré-existentes. Utilizando instruções reversas e um pipeline de tradução, o MURI produz pares de instrução-saída a partir de textos já escritos por humanos em idiomas com poucos recursos. Este método garante relevância cultural e diversidade ao obter textos de diferentes domínios nativos e aplicar filtros para eliminar conteúdo inadequado. Nosso conjunto de dados, MURI-IT, inclui mais de 2 milhões de pares de instrução-saída em 200 idiomas. A avaliação por falantes nativos e experimentos de ajuste fino com modelos mT5 demonstram a eficácia da abordagem tanto para compreensão de linguagem natural (NLU) quanto para geração aberta. Disponibilizamos publicamente conjuntos de dados e modelos em https://github.com/akoksal/muri.
English
Instruction tuning enhances large language models (LLMs) by aligning them
with human preferences across diverse tasks. Traditional approaches to create
instruction tuning datasets face serious challenges for low-resource languages
due to their dependence on data annotation. This work introduces a novel
method, Multilingual Reverse Instructions (MURI), which generates high-quality
instruction tuning datasets for low-resource languages without requiring human
annotators or pre-existing multilingual models. Utilizing reverse instructions
and a translation pipeline, MURI produces instruction-output pairs from
existing human-written texts in low-resource languages. This method ensures
cultural relevance and diversity by sourcing texts from different native
domains and applying filters to eliminate inappropriate content. Our dataset,
MURI-IT, includes more than 2 million instruction-output pairs across 200
languages. Evaluation by native speakers and fine-tuning experiments with mT5
models demonstrate the approach's effectiveness for both NLU and open-ended
generation. We publicly release datasets and models at
https://github.com/akoksal/muri.Summary
AI-Generated Summary