ChatPaper.aiChatPaper

Ensemble-Instruct: Генерация данных для тонкой настройки инструкций с использованием гетерогенной смеси языковых моделей

Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs

October 21, 2023
Авторы: Young-Suk Lee, Md Arafat Sultan, Yousef El-Kurdi, Tahira Naseem Asim Munawar, Radu Florian, Salim Roukos, Ramón Fernandez Astudillo
cs.AI

Аннотация

Используя обучение в контексте (In-Context Learning, ICL) для генерации данных, такие методы, как Self-Instruct (Wang et al., 2023) или их продолжение Alpaca (Taori et al., 2023), позволяют обучать мощные диалоговые агенты с минимальным участием человека. Одним из ограничений этих подходов является их зависимость от очень больших языковых моделей (около 175 миллиардов параметров), которые также являются проприетарными и недоступными для публичного использования. В данной работе мы исследуем применение таких методов к языковым моделям значительно меньшего размера (около 10–40 миллиардов параметров) с открытыми лицензиями. Мы обнаруживаем, что подход Self-Instruct менее эффективен для моделей такого размера, и предлагаем новые методы ICL, основанные на двух основных идеях: (а) категоризация и упрощение шаблонов ICL для облегчения обучения модели на основе подсказок и (б) ансамблирование множества выходов модели для выбора высококачественных синтетических примеров. Наш алгоритм использует 175 начальных задач Self-Instruct и применяет отдельные конвейеры для инструкций, требующих входных данных, и тех, которые их не требуют. Эмпирические исследования с различными языковыми моделями показывают, что: (1) наш предложенный метод генерирует данные для настройки инструкций более высокого качества, чем Self-Instruct, (2) он значительно улучшает производительность как базовых, так и настроенных на инструкции моделей и (3) меньшие по размеру модели, настроенные на инструкции, генерируют более полезные выходные данные, чем их более крупные аналоги без настройки. Наш код доступен по адресу https://github.com/IBM/ensemble-instruct.
English
Using in-context learning (ICL) for data generation, techniques such as Self-Instruct (Wang et al., 2023) or the follow-up Alpaca (Taori et al., 2023) can train strong conversational agents with only a small amount of human supervision. One limitation of these approaches is that they resort to very large language models (around 175B parameters) that are also proprietary and non-public. Here we explore the application of such techniques to language models that are much smaller (around 10B--40B parameters) and have permissive licenses. We find the Self-Instruct approach to be less effective at these sizes and propose new ICL methods that draw on two main ideas: (a) Categorization and simplification of the ICL templates to make prompt learning easier for the LM, and (b) Ensembling over multiple LM outputs to help select high-quality synthetic examples. Our algorithm leverages the 175 Self-Instruct seed tasks and employs separate pipelines for instructions that require an input and instructions that do not. Empirical investigations with different LMs show that: (1) Our proposed method yields higher-quality instruction tuning data than Self-Instruct, (2) It improves performances of both vanilla and instruction-tuned LMs by significant margins, and (3) Smaller instruction-tuned LMs generate more useful outputs than their larger un-tuned counterparts. Our codebase is available at https://github.com/IBM/ensemble-instruct.
PDF52December 15, 2024