MURI: Hochwertige Anleitungseinstellungsdatensätze für Sprachen mit geringen Ressourcen durch umgekehrte Anweisungen

papers.abstract

Die Anpassung von Anweisungen verbessert große Sprachmodelle (LLMs), indem sie sie mit menschlichen Präferenzen über verschiedene Aufgaben hinweg abstimmen. Traditionelle Ansätze zur Erstellung von Anpassungsdatensätzen für Anweisungen stoßen bei wenig ressourcenstarken Sprachen auf ernsthafte Herausforderungen aufgrund ihrer Abhängigkeit von Datenannotation. Diese Arbeit stellt eine neuartige Methode vor, Multilingual Reverse Instructions (MURI), die hochwertige Anpassungsdatensätze für wenig ressourcenstarke Sprachen generiert, ohne menschliche Annotatoren oder bereits vorhandene mehrsprachige Modelle zu benötigen. Durch die Verwendung von Umkehranweisungen und einer Übersetzungspipeline erzeugt MURI Anweisungs-Ausgabe-Paare aus vorhandenen, von Menschen geschriebenen Texten in wenig ressourcenstarken Sprachen. Diese Methode gewährleistet kulturelle Relevanz und Vielfalt, indem Texte aus verschiedenen nativen Bereichen bezogen und Filter angewendet werden, um unangemessene Inhalte zu eliminieren. Unser Datensatz, MURI-IT, umfasst mehr als 2 Millionen Anweisungs-Ausgabe-Paare in 200 Sprachen. Die Evaluation durch Muttersprachler und Feinabstimmungsexperimente mit mT5-Modellen zeigen die Wirksamkeit des Ansatzes sowohl für NLU als auch für die offene Generierung. Wir veröffentlichen Datensätze und Modelle öffentlich unter https://github.com/akoksal/muri.

English

Instruction tuning enhances large language models (LLMs) by aligning them with human preferences across diverse tasks. Traditional approaches to create instruction tuning datasets face serious challenges for low-resource languages due to their dependence on data annotation. This work introduces a novel method, Multilingual Reverse Instructions (MURI), which generates high-quality instruction tuning datasets for low-resource languages without requiring human annotators or pre-existing multilingual models. Utilizing reverse instructions and a translation pipeline, MURI produces instruction-output pairs from existing human-written texts in low-resource languages. This method ensures cultural relevance and diversity by sourcing texts from different native domains and applying filters to eliminate inappropriate content. Our dataset, MURI-IT, includes more than 2 million instruction-output pairs across 200 languages. Evaluation by native speakers and fine-tuning experiments with mT5 models demonstrate the approach's effectiveness for both NLU and open-ended generation. We publicly release datasets and models at https://github.com/akoksal/muri.

MURI: Hochwertige Anleitungseinstellungsdatensätze für Sprachen mit geringen Ressourcen durch umgekehrte Anweisungen

MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions

papers.abstract

Support