ChatPaper.aiChatPaper

MURI: Наборы данных для настройки инструкций высокого качества для языков с ограниченными ресурсами с использованием обратных инструкций

MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions

September 19, 2024
Авторы: Abdullatif Köksal, Marion Thaler, Ayyoob Imani, Ahmet Üstün, Anna Korhonen, Hinrich Schütze
cs.AI

Аннотация

Настройка инструкций улучшает крупные языковые модели (LLM), выстраивая их в соответствии с предпочтениями людей в различных задачах. Традиционные подходы к созданию наборов данных для настройки инструкций сталкиваются с серьезными проблемами для языков с ограниченными ресурсами из-за зависимости от аннотации данных. В данной работе представлен новый метод, мультиязычные обратные инструкции (MURI), который генерирует высококачественные наборы данных для настройки инструкций для языков с ограниченными ресурсами без необходимости участия человеческих аннотаторов или существующих мультиязычных моделей. Используя обратные инструкции и трансляционный конвейер, MURI создает пары инструкция-вывод из существующих текстов, написанных на языках с ограниченными ресурсами. Этот метод обеспечивает культурную актуальность и разнообразие, используя тексты из различных родных областей и применяя фильтры для исключения неприемлемого контента. Наш набор данных, MURI-IT, включает более 2 миллионов пар инструкция-вывод на 200 языках. Оценка со стороны носителей языка и эксперименты по настройке с моделями mT5 демонстрируют эффективность подхода как для понимания естественного языка, так и для генерации открытого текста. Мы публично выпустили наборы данных и модели на https://github.com/akoksal/muri.
English
Instruction tuning enhances large language models (LLMs) by aligning them with human preferences across diverse tasks. Traditional approaches to create instruction tuning datasets face serious challenges for low-resource languages due to their dependence on data annotation. This work introduces a novel method, Multilingual Reverse Instructions (MURI), which generates high-quality instruction tuning datasets for low-resource languages without requiring human annotators or pre-existing multilingual models. Utilizing reverse instructions and a translation pipeline, MURI produces instruction-output pairs from existing human-written texts in low-resource languages. This method ensures cultural relevance and diversity by sourcing texts from different native domains and applying filters to eliminate inappropriate content. Our dataset, MURI-IT, includes more than 2 million instruction-output pairs across 200 languages. Evaluation by native speakers and fine-tuning experiments with mT5 models demonstrate the approach's effectiveness for both NLU and open-ended generation. We publicly release datasets and models at https://github.com/akoksal/muri.

Summary

AI-Generated Summary

PDF83November 16, 2024