ChatPaper.aiChatPaper

IFDECORATOR: 検証可能な報酬を用いた指示追従強化学習のラッピング

IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

August 6, 2025
著者: Xu Guo, Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Chen
cs.AI

要旨

検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)は、大規模言語モデル(LLMs)の指示追従能力を向上させるが、難易度評価の不十分さによる訓練効率の低さが課題である。さらに、RLVRは過剰最適化に陥りやすく、LLMsがユーザー指示の本来の意図に沿わずに検証のショートカットを利用する傾向がある。本論文では、RLVR訓練を堅牢かつサンプル効率の高いパイプラインに組み込むフレームワークである「指示追従デコレータ(Instruction Following Decorator, IFDecorator)」を提案する。IFDecoratorは以下の3つのコンポーネントで構成される:(1) 指示とハイブリッド検証を共進化させ、段階的に難易度の高い指示-検証ペアを生成する協調的-敵対的データフライホイール、(2) 意図整合性を強制するバイパスモジュール「IntentCheck」、(3) ショートカット利用行動を検出する診断メカニズム「トリップワイヤ」。本手法を適用したQwen2.5-32B-Instruct-IFDecoratorは、IFEvalにおいて87.43%の精度を達成し、GPT-4oなどの大規模なプロプライエタリモデルを上回った。さらに、FollowBenchにおいても大幅な改善を示しつつ、一般的な能力を維持した。トリップワイヤは、報酬ハッキング率の大幅な低減を実現した。今後の研究のために、モデル、コード、データを公開する予定である。
English
Reinforcement Learning with Verifiable Rewards (RLVR) improves instruction following capabilities of large language models (LLMs), but suffers from training inefficiency due to inadequate difficulty assessment. Moreover, RLVR is prone to over-optimization, where LLMs exploit verification shortcuts without aligning to the actual intent of user instructions. We introduce Instruction Following Decorator (IFDecorator}, a framework that wraps RLVR training into a robust and sample-efficient pipeline. It consists of three components: (1) a cooperative-adversarial data flywheel that co-evolves instructions and hybrid verifications, generating progressively more challenging instruction-verification pairs; (2) IntentCheck, a bypass module enforcing intent alignment; and (3) trip wires, a diagnostic mechanism that detects reward hacking via trap instructions, which trigger and capture shortcut exploitation behaviors. Our Qwen2.5-32B-Instruct-IFDecorator achieves 87.43% accuracy on IFEval, outperforming larger proprietary models such as GPT-4o. Additionally, we demonstrate substantial improvements on FollowBench while preserving general capabilities. Our trip wires show significant reductions in reward hacking rates. We will release models, code, and data for future research.
PDF22August 7, 2025