MURI: Hochwertige Anleitungseinstellungsdatensätze für Sprachen mit geringen Ressourcen durch umgekehrte Anweisungen
MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions
September 19, 2024
Autoren: Abdullatif Köksal, Marion Thaler, Ayyoob Imani, Ahmet Üstün, Anna Korhonen, Hinrich Schütze
cs.AI
Zusammenfassung
Die Anpassung von Anweisungen verbessert große Sprachmodelle (LLMs), indem sie sie mit menschlichen Präferenzen über verschiedene Aufgaben hinweg abstimmen. Traditionelle Ansätze zur Erstellung von Anpassungsdatensätzen für Anweisungen stoßen bei wenig ressourcenstarken Sprachen auf ernsthafte Herausforderungen aufgrund ihrer Abhängigkeit von Datenannotation. Diese Arbeit stellt eine neuartige Methode vor, Multilingual Reverse Instructions (MURI), die hochwertige Anpassungsdatensätze für wenig ressourcenstarke Sprachen generiert, ohne menschliche Annotatoren oder bereits vorhandene mehrsprachige Modelle zu benötigen. Durch die Verwendung von Umkehranweisungen und einer Übersetzungspipeline erzeugt MURI Anweisungs-Ausgabe-Paare aus vorhandenen, von Menschen geschriebenen Texten in wenig ressourcenstarken Sprachen. Diese Methode gewährleistet kulturelle Relevanz und Vielfalt, indem Texte aus verschiedenen nativen Bereichen bezogen und Filter angewendet werden, um unangemessene Inhalte zu eliminieren. Unser Datensatz, MURI-IT, umfasst mehr als 2 Millionen Anweisungs-Ausgabe-Paare in 200 Sprachen. Die Evaluation durch Muttersprachler und Feinabstimmungsexperimente mit mT5-Modellen zeigen die Wirksamkeit des Ansatzes sowohl für NLU als auch für die offene Generierung. Wir veröffentlichen Datensätze und Modelle öffentlich unter https://github.com/akoksal/muri.
English
Instruction tuning enhances large language models (LLMs) by aligning them
with human preferences across diverse tasks. Traditional approaches to create
instruction tuning datasets face serious challenges for low-resource languages
due to their dependence on data annotation. This work introduces a novel
method, Multilingual Reverse Instructions (MURI), which generates high-quality
instruction tuning datasets for low-resource languages without requiring human
annotators or pre-existing multilingual models. Utilizing reverse instructions
and a translation pipeline, MURI produces instruction-output pairs from
existing human-written texts in low-resource languages. This method ensures
cultural relevance and diversity by sourcing texts from different native
domains and applying filters to eliminate inappropriate content. Our dataset,
MURI-IT, includes more than 2 million instruction-output pairs across 200
languages. Evaluation by native speakers and fine-tuning experiments with mT5
models demonstrate the approach's effectiveness for both NLU and open-ended
generation. We publicly release datasets and models at
https://github.com/akoksal/muri.Summary
AI-Generated Summary