IFDECORATOR : Encapsulation de l'apprentissage par renforcement basé sur des instructions avec des récompenses vérifiables
IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards
August 6, 2025
papers.authors: Xu Guo, Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Chen
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore les capacités de suivi des instructions des grands modèles de langage (LLMs), mais souffre d'une inefficacité d'entraînement due à une évaluation inadéquate de la difficulté. De plus, le RLVR est sujet à une sur-optimisation, où les LLMs exploitent des raccourcis de vérification sans s'aligner sur l'intention réelle des instructions utilisateur. Nous introduisons Instruction Following Decorator (IFDecorator), un cadre qui intègre l'entraînement RLVR dans un pipeline robuste et économe en échantillons. Il se compose de trois éléments : (1) un volant d'inertie coopératif-adversarial qui co-évolue les instructions et les vérifications hybrides, générant des paires instruction-vérification de plus en plus difficiles ; (2) IntentCheck, un module de contournement qui impose l'alignement sur l'intention ; et (3) des fils de déclenchement, un mécanisme de diagnostic qui détecte le piratage des récompenses via des instructions pièges, qui déclenchent et capturent les comportements d'exploitation de raccourcis. Notre modèle Qwen2.5-32B-Instruct-IFDecorator atteint une précision de 87,43 % sur IFEval, surpassant des modèles propriétaires plus grands comme GPT-4o. De plus, nous démontrons des améliorations substantielles sur FollowBench tout en préservant les capacités générales. Nos fils de déclenchement montrent des réductions significatives des taux de piratage des récompenses. Nous publierons les modèles, le code et les données pour les recherches futures.
English
Reinforcement Learning with Verifiable Rewards (RLVR) improves instruction
following capabilities of large language models (LLMs), but suffers from
training inefficiency due to inadequate difficulty assessment. Moreover, RLVR
is prone to over-optimization, where LLMs exploit verification shortcuts
without aligning to the actual intent of user instructions. We introduce
Instruction Following Decorator (IFDecorator}, a framework that wraps RLVR
training into a robust and sample-efficient pipeline. It consists of three
components: (1) a cooperative-adversarial data flywheel that co-evolves
instructions and hybrid verifications, generating progressively more
challenging instruction-verification pairs; (2) IntentCheck, a bypass module
enforcing intent alignment; and (3) trip wires, a diagnostic mechanism that
detects reward hacking via trap instructions, which trigger and capture
shortcut exploitation behaviors. Our Qwen2.5-32B-Instruct-IFDecorator achieves
87.43% accuracy on IFEval, outperforming larger proprietary models such as
GPT-4o. Additionally, we demonstrate substantial improvements on FollowBench
while preserving general capabilities. Our trip wires show significant
reductions in reward hacking rates. We will release models, code, and data for
future research.