MURI: Set di dati di sintonizzazione dell'istruzione di alta qualità per lingue a bassa risorsa tramite istruzioni inverse
MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions
September 19, 2024
Autori: Abdullatif Köksal, Marion Thaler, Ayyoob Imani, Ahmet Üstün, Anna Korhonen, Hinrich Schütze
cs.AI
Abstract
L'ottimizzazione delle istruzioni migliora i grandi modelli linguistici (LLM) allineandoli alle preferenze umane in diversi compiti. Gli approcci tradizionali per creare set di dati per l'ottimizzazione delle istruzioni affrontano gravi sfide per le lingue a risorse limitate a causa della dipendenza dall'annotazione dei dati. Questo lavoro introduce un nuovo metodo, Multilingual Reverse Instructions (MURI), che genera set di dati di ottimizzazione delle istruzioni di alta qualità per le lingue a risorse limitate senza richiedere annotatori umani o modelli multilingue preesistenti. Utilizzando istruzioni inverse e un pipeline di traduzione, MURI produce coppie istruzione-output da testi scritti da umani esistenti nelle lingue a risorse limitate. Questo metodo garantisce rilevanza culturale e diversità attingendo a testi provenienti da diversi domini nativi e applicando filtri per eliminare contenuti inappropriati. Il nostro set di dati, MURI-IT, include più di 2 milioni di coppie istruzione-output in 200 lingue. Valutazioni da parte di madrelingua e esperimenti di raffinamento con modelli mT5 dimostrano l'efficacia dell'approccio sia per NLU che per la generazione aperta. Rilasciamo pubblicamente set di dati e modelli su https://github.com/akoksal/muri.
English
Instruction tuning enhances large language models (LLMs) by aligning them
with human preferences across diverse tasks. Traditional approaches to create
instruction tuning datasets face serious challenges for low-resource languages
due to their dependence on data annotation. This work introduces a novel
method, Multilingual Reverse Instructions (MURI), which generates high-quality
instruction tuning datasets for low-resource languages without requiring human
annotators or pre-existing multilingual models. Utilizing reverse instructions
and a translation pipeline, MURI produces instruction-output pairs from
existing human-written texts in low-resource languages. This method ensures
cultural relevance and diversity by sourcing texts from different native
domains and applying filters to eliminate inappropriate content. Our dataset,
MURI-IT, includes more than 2 million instruction-output pairs across 200
languages. Evaluation by native speakers and fine-tuning experiments with mT5
models demonstrate the approach's effectiveness for both NLU and open-ended
generation. We publicly release datasets and models at
https://github.com/akoksal/muri.Summary
AI-Generated Summary