IFDECORATOR : Encapsulation de l'apprentissage par renforcement basé sur des instructions avec des récompenses vérifiables

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore les capacités de suivi des instructions des grands modèles de langage (LLMs), mais souffre d'une inefficacité d'entraînement due à une évaluation inadéquate de la difficulté. De plus, le RLVR est sujet à une sur-optimisation, où les LLMs exploitent des raccourcis de vérification sans s'aligner sur l'intention réelle des instructions utilisateur. Nous introduisons Instruction Following Decorator (IFDecorator), un cadre qui intègre l'entraînement RLVR dans un pipeline robuste et économe en échantillons. Il se compose de trois éléments : (1) un volant d'inertie coopératif-adversarial qui co-évolue les instructions et les vérifications hybrides, générant des paires instruction-vérification de plus en plus difficiles ; (2) IntentCheck, un module de contournement qui impose l'alignement sur l'intention ; et (3) des fils de déclenchement, un mécanisme de diagnostic qui détecte le piratage des récompenses via des instructions pièges, qui déclenchent et capturent les comportements d'exploitation de raccourcis. Notre modèle Qwen2.5-32B-Instruct-IFDecorator atteint une précision de 87,43 % sur IFEval, surpassant des modèles propriétaires plus grands comme GPT-4o. De plus, nous démontrons des améliorations substantielles sur FollowBench tout en préservant les capacités générales. Nos fils de déclenchement montrent des réductions significatives des taux de piratage des récompenses. Nous publierons les modèles, le code et les données pour les recherches futures.

English

Reinforcement Learning with Verifiable Rewards (RLVR) improves instruction following capabilities of large language models (LLMs), but suffers from training inefficiency due to inadequate difficulty assessment. Moreover, RLVR is prone to over-optimization, where LLMs exploit verification shortcuts without aligning to the actual intent of user instructions. We introduce Instruction Following Decorator (IFDecorator}, a framework that wraps RLVR training into a robust and sample-efficient pipeline. It consists of three components: (1) a cooperative-adversarial data flywheel that co-evolves instructions and hybrid verifications, generating progressively more challenging instruction-verification pairs; (2) IntentCheck, a bypass module enforcing intent alignment; and (3) trip wires, a diagnostic mechanism that detects reward hacking via trap instructions, which trigger and capture shortcut exploitation behaviors. Our Qwen2.5-32B-Instruct-IFDecorator achieves 87.43% accuracy on IFEval, outperforming larger proprietary models such as GPT-4o. Additionally, we demonstrate substantial improvements on FollowBench while preserving general capabilities. Our trip wires show significant reductions in reward hacking rates. We will release models, code, and data for future research.

IFDECORATOR : Encapsulation de l'apprentissage par renforcement basé sur des instructions avec des récompenses vérifiables

IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

papers.abstract

Support