ChatPaper.aiChatPaper

Más allá del compromiso: Aprendizaje por refuerzo autosupervisado para la capacidad de seguimiento de instrucciones en modelos de razonamiento

Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following

August 4, 2025
Autores: Qingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu
cs.AI

Resumen

Los modelos de razonamiento sobresalen en la resolución de problemas complejos, pero presentan una preocupante compensación entre sus capacidades de razonamiento y su habilidad para seguir instrucciones. Los enfoques existentes para mejorar el seguimiento de instrucciones dependen de modelos externos más potentes, lo que genera cuellos de botella metodológicos y limitaciones prácticas, incluyendo mayores costos y restricciones de accesibilidad. Proponemos un marco de aprendizaje por refuerzo (RL) autosupervisado que aprovecha las señales internas de los propios modelos de razonamiento para mejorar su capacidad de seguir instrucciones sin supervisión externa. Experimentos exhaustivos demuestran que nuestro marco mejora significativamente la capacidad de seguimiento de instrucciones mientras mantiene el rendimiento en razonamiento, ofreciendo un enfoque escalable y rentable para mejorar esta habilidad en modelos de razonamiento. Los datos y el código están disponibles públicamente en https://github.com/Rainier-rq/verl-if.
English
Reasoning models excel in complex problem solving but exhibit a concerning trade off between reasoning capabilities and instruction following abilities. Existing approaches for improving instruction following rely on stronger external models, creating methodological bottlenecks and practical limitations including increased costs and accessibility constraints. We propose a self-supervised RL framework that leverages reasoning models' own internal signals to improve instruction following capabilities without external supervision. Extensive experiments demonstrate that our framework significantly improves instruction following capabilities while maintaining reasoning performance, offering a scalable and cost-effective approach to enhance instruction following in reasoning models. The data and code are publicly available at https://github.com/Rainier-rq/verl-if.
PDF332August 5, 2025