IFDECORATOR: Envolvendo o Aprendizado por Reforço de Seguimento de Instruções com Recompensas Verificáveis

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) melhora as capacidades de seguimento de instruções de modelos de linguagem de grande escala (LLMs), mas sofre com ineficiência de treinamento devido à avaliação inadequada da dificuldade. Além disso, o RLVR é propenso à superotimização, onde os LLMs exploram atalhos de verificação sem se alinhar à intenção real das instruções do usuário. Introduzimos o Decorador de Seguimento de Instruções (IFDecorator), uma estrutura que integra o treinamento RLVR em um pipeline robusto e eficiente em termos de amostras. Ele consiste em três componentes: (1) um ciclo de dados cooperativo-adversarial que coevolui instruções e verificações híbridas, gerando pares de instrução-verificação progressivamente mais desafiadores; (2) o IntentCheck, um módulo de desvio que reforça o alinhamento da intenção; e (3) trip wires, um mecanismo de diagnóstico que detecta a manipulação de recompensas por meio de instruções armadilha, que acionam e capturam comportamentos de exploração de atalhos. Nosso Qwen2.5-32B-Instruct-IFDecorator alcança 87,43% de precisão no IFEval, superando modelos proprietários maiores, como o GPT-4o. Além disso, demonstramos melhorias substanciais no FollowBench, mantendo as capacidades gerais. Nossos trip wires mostram reduções significativas nas taxas de manipulação de recompensas. Liberaremos modelos, código e dados para pesquisas futuras.

English

Reinforcement Learning with Verifiable Rewards (RLVR) improves instruction following capabilities of large language models (LLMs), but suffers from training inefficiency due to inadequate difficulty assessment. Moreover, RLVR is prone to over-optimization, where LLMs exploit verification shortcuts without aligning to the actual intent of user instructions. We introduce Instruction Following Decorator (IFDecorator}, a framework that wraps RLVR training into a robust and sample-efficient pipeline. It consists of three components: (1) a cooperative-adversarial data flywheel that co-evolves instructions and hybrid verifications, generating progressively more challenging instruction-verification pairs; (2) IntentCheck, a bypass module enforcing intent alignment; and (3) trip wires, a diagnostic mechanism that detects reward hacking via trap instructions, which trigger and capture shortcut exploitation behaviors. Our Qwen2.5-32B-Instruct-IFDecorator achieves 87.43% accuracy on IFEval, outperforming larger proprietary models such as GPT-4o. Additionally, we demonstrate substantial improvements on FollowBench while preserving general capabilities. Our trip wires show significant reductions in reward hacking rates. We will release models, code, and data for future research.

IFDECORATOR: Envolvendo o Aprendizado por Reforço de Seguimento de Instruções com Recompensas Verificáveis

IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

Resumo

Support