IFDECORATOR: Envolvendo o Aprendizado por Reforço de Seguimento de Instruções com Recompensas Verificáveis
IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards
August 6, 2025
Autores: Xu Guo, Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Chen
cs.AI
Resumo
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) melhora as capacidades de seguimento de instruções de modelos de linguagem de grande escala (LLMs), mas sofre com ineficiência de treinamento devido à avaliação inadequada da dificuldade. Além disso, o RLVR é propenso à superotimização, onde os LLMs exploram atalhos de verificação sem se alinhar à intenção real das instruções do usuário. Introduzimos o Decorador de Seguimento de Instruções (IFDecorator), uma estrutura que integra o treinamento RLVR em um pipeline robusto e eficiente em termos de amostras. Ele consiste em três componentes: (1) um ciclo de dados cooperativo-adversarial que coevolui instruções e verificações híbridas, gerando pares de instrução-verificação progressivamente mais desafiadores; (2) o IntentCheck, um módulo de desvio que reforça o alinhamento da intenção; e (3) trip wires, um mecanismo de diagnóstico que detecta a manipulação de recompensas por meio de instruções armadilha, que acionam e capturam comportamentos de exploração de atalhos. Nosso Qwen2.5-32B-Instruct-IFDecorator alcança 87,43% de precisão no IFEval, superando modelos proprietários maiores, como o GPT-4o. Além disso, demonstramos melhorias substanciais no FollowBench, mantendo as capacidades gerais. Nossos trip wires mostram reduções significativas nas taxas de manipulação de recompensas. Liberaremos modelos, código e dados para pesquisas futuras.
English
Reinforcement Learning with Verifiable Rewards (RLVR) improves instruction
following capabilities of large language models (LLMs), but suffers from
training inefficiency due to inadequate difficulty assessment. Moreover, RLVR
is prone to over-optimization, where LLMs exploit verification shortcuts
without aligning to the actual intent of user instructions. We introduce
Instruction Following Decorator (IFDecorator}, a framework that wraps RLVR
training into a robust and sample-efficient pipeline. It consists of three
components: (1) a cooperative-adversarial data flywheel that co-evolves
instructions and hybrid verifications, generating progressively more
challenging instruction-verification pairs; (2) IntentCheck, a bypass module
enforcing intent alignment; and (3) trip wires, a diagnostic mechanism that
detects reward hacking via trap instructions, which trigger and capture
shortcut exploitation behaviors. Our Qwen2.5-32B-Instruct-IFDecorator achieves
87.43% accuracy on IFEval, outperforming larger proprietary models such as
GPT-4o. Additionally, we demonstrate substantial improvements on FollowBench
while preserving general capabilities. Our trip wires show significant
reductions in reward hacking rates. We will release models, code, and data for
future research.