Além do Trade-off: Aprendizado por Reforço Autossupervisionado para Modelos de Raciocínio no Seguimento de Instruções
Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following
August 4, 2025
Autores: Qingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu
cs.AI
Resumo
Modelos de raciocínio se destacam na resolução de problemas complexos, mas apresentam uma troca preocupante entre capacidades de raciocínio e habilidades de seguir instruções. As abordagens existentes para melhorar o seguimento de instruções dependem de modelos externos mais robustos, criando gargalos metodológicos e limitações práticas, incluindo custos elevados e restrições de acessibilidade. Propomos uma estrutura de RL (Reinforcement Learning) auto-supervisionada que aproveita os sinais internos dos próprios modelos de raciocínio para melhorar as habilidades de seguir instruções sem supervisão externa. Experimentos extensivos demonstram que nossa estrutura melhora significativamente as capacidades de seguir instruções enquanto mantém o desempenho de raciocínio, oferecendo uma abordagem escalável e econômica para aprimorar o seguimento de instruções em modelos de raciocínio. Os dados e o código estão disponíveis publicamente em https://github.com/Rainier-rq/verl-if.
English
Reasoning models excel in complex problem solving but exhibit a concerning
trade off between reasoning capabilities and instruction following abilities.
Existing approaches for improving instruction following rely on stronger
external models, creating methodological bottlenecks and practical limitations
including increased costs and accessibility constraints. We propose a
self-supervised RL framework that leverages reasoning models' own internal
signals to improve instruction following capabilities without external
supervision. Extensive experiments demonstrate that our framework significantly
improves instruction following capabilities while maintaining reasoning
performance, offering a scalable and cost-effective approach to enhance
instruction following in reasoning models. The data and code are publicly
available at https://github.com/Rainier-rq/verl-if.