IFDECORATOR: 検証可能な報酬を用いた指示追従強化学習のラッピング
IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards
August 6, 2025
著者: Xu Guo, Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Chen
cs.AI
要旨
検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)は、大規模言語モデル(LLMs)の指示追従能力を向上させるが、難易度評価の不十分さによる訓練効率の低さが課題である。さらに、RLVRは過剰最適化に陥りやすく、LLMsがユーザー指示の本来の意図に沿わずに検証のショートカットを利用する傾向がある。本論文では、RLVR訓練を堅牢かつサンプル効率の高いパイプラインに組み込むフレームワークである「指示追従デコレータ(Instruction Following Decorator, IFDecorator)」を提案する。IFDecoratorは以下の3つのコンポーネントで構成される:(1) 指示とハイブリッド検証を共進化させ、段階的に難易度の高い指示-検証ペアを生成する協調的-敵対的データフライホイール、(2) 意図整合性を強制するバイパスモジュール「IntentCheck」、(3) ショートカット利用行動を検出する診断メカニズム「トリップワイヤ」。本手法を適用したQwen2.5-32B-Instruct-IFDecoratorは、IFEvalにおいて87.43%の精度を達成し、GPT-4oなどの大規模なプロプライエタリモデルを上回った。さらに、FollowBenchにおいても大幅な改善を示しつつ、一般的な能力を維持した。トリップワイヤは、報酬ハッキング率の大幅な低減を実現した。今後の研究のために、モデル、コード、データを公開する予定である。
English
Reinforcement Learning with Verifiable Rewards (RLVR) improves instruction
following capabilities of large language models (LLMs), but suffers from
training inefficiency due to inadequate difficulty assessment. Moreover, RLVR
is prone to over-optimization, where LLMs exploit verification shortcuts
without aligning to the actual intent of user instructions. We introduce
Instruction Following Decorator (IFDecorator}, a framework that wraps RLVR
training into a robust and sample-efficient pipeline. It consists of three
components: (1) a cooperative-adversarial data flywheel that co-evolves
instructions and hybrid verifications, generating progressively more
challenging instruction-verification pairs; (2) IntentCheck, a bypass module
enforcing intent alignment; and (3) trip wires, a diagnostic mechanism that
detects reward hacking via trap instructions, which trigger and capture
shortcut exploitation behaviors. Our Qwen2.5-32B-Instruct-IFDecorator achieves
87.43% accuracy on IFEval, outperforming larger proprietary models such as
GPT-4o. Additionally, we demonstrate substantial improvements on FollowBench
while preserving general capabilities. Our trip wires show significant
reductions in reward hacking rates. We will release models, code, and data for
future research.