Além do Trade-off: Aprendizado por Reforço Autossupervisionado para Modelos de Raciocínio no Seguimento de Instruções

Resumo

Modelos de raciocínio se destacam na resolução de problemas complexos, mas apresentam uma troca preocupante entre capacidades de raciocínio e habilidades de seguir instruções. As abordagens existentes para melhorar o seguimento de instruções dependem de modelos externos mais robustos, criando gargalos metodológicos e limitações práticas, incluindo custos elevados e restrições de acessibilidade. Propomos uma estrutura de RL (Reinforcement Learning) auto-supervisionada que aproveita os sinais internos dos próprios modelos de raciocínio para melhorar as habilidades de seguir instruções sem supervisão externa. Experimentos extensivos demonstram que nossa estrutura melhora significativamente as capacidades de seguir instruções enquanto mantém o desempenho de raciocínio, oferecendo uma abordagem escalável e econômica para aprimorar o seguimento de instruções em modelos de raciocínio. Os dados e o código estão disponíveis publicamente em https://github.com/Rainier-rq/verl-if.

English

Reasoning models excel in complex problem solving but exhibit a concerning trade off between reasoning capabilities and instruction following abilities. Existing approaches for improving instruction following rely on stronger external models, creating methodological bottlenecks and practical limitations including increased costs and accessibility constraints. We propose a self-supervised RL framework that leverages reasoning models' own internal signals to improve instruction following capabilities without external supervision. Extensive experiments demonstrate that our framework significantly improves instruction following capabilities while maintaining reasoning performance, offering a scalable and cost-effective approach to enhance instruction following in reasoning models. The data and code are publicly available at https://github.com/Rainier-rq/verl-if.

Além do Trade-off: Aprendizado por Reforço Autossupervisionado para Modelos de Raciocínio no Seguimento de Instruções

Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following

Resumo

Support