Más allá del compromiso: Aprendizaje por refuerzo autosupervisado para la capacidad de seguimiento de instrucciones en modelos de razonamiento
Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following
August 4, 2025
Autores: Qingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu
cs.AI
Resumen
Los modelos de razonamiento sobresalen en la resolución de problemas complejos, pero presentan una preocupante compensación entre sus capacidades de razonamiento y su habilidad para seguir instrucciones. Los enfoques existentes para mejorar el seguimiento de instrucciones dependen de modelos externos más potentes, lo que genera cuellos de botella metodológicos y limitaciones prácticas, incluyendo mayores costos y restricciones de accesibilidad. Proponemos un marco de aprendizaje por refuerzo (RL) autosupervisado que aprovecha las señales internas de los propios modelos de razonamiento para mejorar su capacidad de seguir instrucciones sin supervisión externa. Experimentos exhaustivos demuestran que nuestro marco mejora significativamente la capacidad de seguimiento de instrucciones mientras mantiene el rendimiento en razonamiento, ofreciendo un enfoque escalable y rentable para mejorar esta habilidad en modelos de razonamiento. Los datos y el código están disponibles públicamente en https://github.com/Rainier-rq/verl-if.
English
Reasoning models excel in complex problem solving but exhibit a concerning
trade off between reasoning capabilities and instruction following abilities.
Existing approaches for improving instruction following rely on stronger
external models, creating methodological bottlenecks and practical limitations
including increased costs and accessibility constraints. We propose a
self-supervised RL framework that leverages reasoning models' own internal
signals to improve instruction following capabilities without external
supervision. Extensive experiments demonstrate that our framework significantly
improves instruction following capabilities while maintaining reasoning
performance, offering a scalable and cost-effective approach to enhance
instruction following in reasoning models. The data and code are publicly
available at https://github.com/Rainier-rq/verl-if.