Самостоятельное обучение с обратной связью по выполнению: улучшение способностей к следованию инструкциям у больших языковых моделей.
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models
June 19, 2024
Авторы: Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI
Аннотация
Одной из основных возможностей больших языковых моделей (LLM) является выполнение инструкций на естественном языке. Однако проблема автоматического создания высококачественных обучающих данных для улучшения способностей LLM к выполнению сложных инструкций без ручной аннотации остается нерешенной. В данной статье мы представляем AutoIF - первый масштабируемый и надежный метод для автоматического создания обучающих данных по выполнению инструкций. AutoIF преобразует проверку качества данных по выполнению инструкций в проверку кода, требуя от LLM генерировать инструкции, соответствующий код для проверки правильности ответов на инструкции и образцы модульного тестирования для проверки правильности кода. Затем на основе обратной связи выполнения метод отбора на основе отклонения может генерировать данные для обучения с применением методов Надзорного Тонкой Настройки (SFT) и Обучения с Подкреплением на основе Обратной Связи от Человека (RLHF). AutoIF достигает значительных улучшений при применении к трем алгоритмам обучения - SFT, Offline DPO и Online DPO, когда применяется к лучшим LLM с открытым исходным кодом, Qwen2 и LLaMA3, в настройках само-выравнивания и сильного-слабого дистилляции. Наш код общедоступен по адресу https://github.com/QwenLM/AutoIF.
English
One core capability of large language models (LLMs) is to follow natural
language instructions. However, the issue of automatically constructing
high-quality training data to enhance the complex instruction-following
abilities of LLMs without manual annotation remains unresolved. In this paper,
we introduce AutoIF, the first scalable and reliable method for automatically
generating instruction-following training data. AutoIF transforms the
validation of instruction-following data quality into code verification,
requiring LLMs to generate instructions, the corresponding code to check the
correctness of the instruction responses, and unit test samples to verify the
code's correctness. Then, execution feedback-based rejection sampling can
generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from
Human Feedback (RLHF) training. AutoIF achieves significant improvements across
three training algorithms, SFT, Offline DPO, and Online DPO, when applied to
the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and
strong-to-weak distillation settings. Our code is publicly available at
https://github.com/QwenLM/AutoIF.Summary
AI-Generated Summary