実行フィードバックを伴う自己対戦:大規模言語モデルの指示追従能力の向上
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models
June 19, 2024
著者: Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI
要旨
大規模言語モデル(LLMs)の中核的な能力の一つは、自然言語の指示に従うことです。しかし、手動のアノテーションなしにLLMsの複雑な指示追従能力を向上させるための高品質なトレーニングデータを自動的に構築するという課題は、未解決のままです。本論文では、指示追従トレーニングデータを自動生成する初めてのスケーラブルで信頼性の高い手法であるAutoIFを紹介します。AutoIFは、指示追従データの品質検証をコード検証に変換し、LLMsに指示の生成、指示応答の正しさを確認するための対応するコード、およびコードの正しさを検証するためのユニットテストサンプルの生成を要求します。その後、実行フィードバックに基づくリジェクトサンプリングにより、教師あり微調整(SFT)および人間のフィードバックからの強化学習(RLHF)トレーニング用のデータを生成します。AutoIFは、トップのオープンソースLLMsであるQwen2とLLaMA3に適用した場合、自己整合および強から弱への蒸留設定において、SFT、オフラインDPO、オンラインDPOの3つのトレーニングアルゴリズム全体で大幅な改善を達成します。私たちのコードはhttps://github.com/QwenLM/AutoIFで公開されています。
English
One core capability of large language models (LLMs) is to follow natural
language instructions. However, the issue of automatically constructing
high-quality training data to enhance the complex instruction-following
abilities of LLMs without manual annotation remains unresolved. In this paper,
we introduce AutoIF, the first scalable and reliable method for automatically
generating instruction-following training data. AutoIF transforms the
validation of instruction-following data quality into code verification,
requiring LLMs to generate instructions, the corresponding code to check the
correctness of the instruction responses, and unit test samples to verify the
code's correctness. Then, execution feedback-based rejection sampling can
generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from
Human Feedback (RLHF) training. AutoIF achieves significant improvements across
three training algorithms, SFT, Offline DPO, and Online DPO, when applied to
the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and
strong-to-weak distillation settings. Our code is publicly available at
https://github.com/QwenLM/AutoIF.Summary
AI-Generated Summary