IFDECORATOR: Envoltura del Aprendizaje por Refuerzo Basado en Instrucciones con Recompensas Verificables
IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards
August 6, 2025
Autores: Xu Guo, Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Chen
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) mejora la capacidad de seguimiento de instrucciones de los modelos de lenguaje de gran escala (LLMs), pero sufre de ineficiencia en el entrenamiento debido a una evaluación inadecuada de la dificultad. Además, el RLVR es propenso a la sobreoptimización, donde los LLMs explotan atajos de verificación sin alinearse con la intención real de las instrucciones del usuario. Introducimos el Decorador de Seguimiento de Instrucciones (IFDecorator), un marco que integra el entrenamiento de RLVR en una canalización robusta y eficiente en términos de muestras. Este consta de tres componentes: (1) un volante de datos cooperativo-adversario que coevoluciona instrucciones y verificaciones híbridas, generando pares de instrucción-verificación progresivamente más desafiantes; (2) IntentCheck, un módulo de bypass que refuerza la alineación con la intención; y (3) trampas de diagnóstico, un mecanismo que detecta el hackeo de recompensas mediante instrucciones trampa, las cuales activan y capturan comportamientos de explotación de atajos. Nuestro Qwen2.5-32B-Instruct-IFDecorator alcanza un 87.43% de precisión en IFEval, superando a modelos propietarios más grandes como GPT-4o. Además, demostramos mejoras sustanciales en FollowBench mientras se preservan las capacidades generales. Nuestras trampas de diagnóstico muestran reducciones significativas en las tasas de hackeo de recompensas. Publicaremos modelos, código y datos para futuras investigaciones.
English
Reinforcement Learning with Verifiable Rewards (RLVR) improves instruction
following capabilities of large language models (LLMs), but suffers from
training inefficiency due to inadequate difficulty assessment. Moreover, RLVR
is prone to over-optimization, where LLMs exploit verification shortcuts
without aligning to the actual intent of user instructions. We introduce
Instruction Following Decorator (IFDecorator}, a framework that wraps RLVR
training into a robust and sample-efficient pipeline. It consists of three
components: (1) a cooperative-adversarial data flywheel that co-evolves
instructions and hybrid verifications, generating progressively more
challenging instruction-verification pairs; (2) IntentCheck, a bypass module
enforcing intent alignment; and (3) trip wires, a diagnostic mechanism that
detects reward hacking via trap instructions, which trigger and capture
shortcut exploitation behaviors. Our Qwen2.5-32B-Instruct-IFDecorator achieves
87.43% accuracy on IFEval, outperforming larger proprietary models such as
GPT-4o. Additionally, we demonstrate substantial improvements on FollowBench
while preserving general capabilities. Our trip wires show significant
reductions in reward hacking rates. We will release models, code, and data for
future research.