Aprendendo com Falhas: Otimização de Políticas Orientada a Correção com Recompensas Verificáveis

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um paradigma eficaz para aprimorar as capacidades de raciocínio de grandes modelos de linguagem. No entanto, o treinamento RLVR é frequentemente prejudicado por recompensas binárias esparsas e atribuição de crédito fraca, resultando em sinais de otimização ambíguos e subutilização das informações úteis embutidas em trajetórias fracassadas. Para enfrentar esse desafio, propomos a Otimização de Política Orientada a Correção (CIPO), uma extensão simples e eficaz do RLVR que converte trajetórias fracassadas on-policy em supervisão orientada a correção, sem depender de sinais externos. Ao otimizar conjuntamente amostras de correção derivadas das próprias tentativas fracassadas do modelo, juntamente com o objetivo padrão do RLVR, o CIPO melhora a eficácia do aprendizado enquanto aumenta explicitamente a capacidade do modelo de corrigir seus próprios erros. Experimentos abrangentes em 11 benchmarks que abrangem raciocínio matemático e geração de código demonstram que o CIPO supera consistentemente e significativamente as linhas de base fortes tanto no desempenho de raciocínio quanto de correção. Além disso, o CIPO produz ganhos mais fortes em pass@K, indicando que melhora a capacidade intrínseca de raciocínio do modelo, em vez de meramente redistribuir a massa de probabilidade sobre as respostas corretas existentes.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective paradigm for improving the reasoning capabilities of large language models. However, RLVR training is often hindered by sparse binary rewards and weak credit assignment, resulting in ambiguous optimization signals and underutilization of the useful information embedded in failed trajectories. To address this challenge, we propose Correction-Oriented Policy Optimization (CIPO), a simple and effective extension to RLVR that converts on-policy failed trajectories into correction-oriented supervision, without relying on any external signals. By jointly optimizing correction samples derived from the model's own failed attempts together with the standard RLVR objective, CIPO improves learning effectiveness while explicitly enhancing the model's ability to correct its own errors. Extensive experiments across 11 benchmarks spanning mathematical reasoning and code generation demonstrate that CIPO consistently and significantly outperforms strong baselines in both reasoning and correction performance. Moreover, CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers.