ChatPaper.aiChatPaper

MURI: Conjuntos de Dados de Ajuste de Instruções de Alta Qualidade para Idiomas de Baixos Recursos por Meio de Instruções Reversas

MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions

September 19, 2024
Autores: Abdullatif Köksal, Marion Thaler, Ayyoob Imani, Ahmet Üstün, Anna Korhonen, Hinrich Schütze
cs.AI

Resumo

A afinação de instruções aprimora modelos de linguagem grandes (LLMs) alinhando-os com as preferências humanas em diversas tarefas. Abordagens tradicionais para criar conjuntos de dados de afinação de instruções enfrentam sérios desafios para idiomas com poucos recursos devido à dependência de anotação de dados. Este trabalho apresenta um método inovador, Instruções Multilíngues Reversas (MURI), que gera conjuntos de dados de afinação de instruções de alta qualidade para idiomas com poucos recursos sem a necessidade de anotadores humanos ou modelos multilíngues pré-existentes. Utilizando instruções reversas e um pipeline de tradução, o MURI produz pares de instrução-saída a partir de textos já escritos por humanos em idiomas com poucos recursos. Este método garante relevância cultural e diversidade ao obter textos de diferentes domínios nativos e aplicar filtros para eliminar conteúdo inadequado. Nosso conjunto de dados, MURI-IT, inclui mais de 2 milhões de pares de instrução-saída em 200 idiomas. A avaliação por falantes nativos e experimentos de ajuste fino com modelos mT5 demonstram a eficácia da abordagem tanto para compreensão de linguagem natural (NLU) quanto para geração aberta. Disponibilizamos publicamente conjuntos de dados e modelos em https://github.com/akoksal/muri.
English
Instruction tuning enhances large language models (LLMs) by aligning them with human preferences across diverse tasks. Traditional approaches to create instruction tuning datasets face serious challenges for low-resource languages due to their dependence on data annotation. This work introduces a novel method, Multilingual Reverse Instructions (MURI), which generates high-quality instruction tuning datasets for low-resource languages without requiring human annotators or pre-existing multilingual models. Utilizing reverse instructions and a translation pipeline, MURI produces instruction-output pairs from existing human-written texts in low-resource languages. This method ensures cultural relevance and diversity by sourcing texts from different native domains and applying filters to eliminate inappropriate content. Our dataset, MURI-IT, includes more than 2 million instruction-output pairs across 200 languages. Evaluation by native speakers and fine-tuning experiments with mT5 models demonstrate the approach's effectiveness for both NLU and open-ended generation. We publicly release datasets and models at https://github.com/akoksal/muri.

Summary

AI-Generated Summary

PDF83November 16, 2024