Aprendizaje a partir de Fracasos: Optimización de Políticas Orientada a la Corrección con Recompensas Verificables

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha emergido como un paradigma eficaz para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala. Sin embargo, el entrenamiento con RLVR a menudo se ve obstaculizado por recompensas binarias dispersas y una débil asignación de crédito, lo que genera señales de optimización ambiguas y una infrautilización de la información útil contenida en las trayectorias fallidas. Para abordar este desafío, proponemos la Optimización de Políticas Orientada a la Corrección (CIPO), una extensión simple y efectiva de RLVR que convierte las trayectorias fallidas on-policy en supervisión orientada a la corrección, sin depender de señales externas. Al optimizar conjuntamente las muestras de corrección derivadas de los propios intentos fallidos del modelo junto con el objetivo estándar de RLVR, CIPO mejora la efectividad del aprendizaje mientras potencia explícitamente la capacidad del modelo para corregir sus propios errores. Experimentos exhaustivos en 11 benchmarks que abarcan razonamiento matemático y generación de código demuestran que CIPO supera de manera consistente y significativa a los sólidos baselines tanto en rendimiento de razonamiento como de corrección. Además, CIPO produce mayores ganancias en pass@K, lo que indica que mejora la capacidad intrínseca de razonamiento del modelo en lugar de simplemente redistribuir la masa de probabilidad sobre las respuestas correctas existentes.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective paradigm for improving the reasoning capabilities of large language models. However, RLVR training is often hindered by sparse binary rewards and weak credit assignment, resulting in ambiguous optimization signals and underutilization of the useful information embedded in failed trajectories. To address this challenge, we propose Correction-Oriented Policy Optimization (CIPO), a simple and effective extension to RLVR that converts on-policy failed trajectories into correction-oriented supervision, without relying on any external signals. By jointly optimizing correction samples derived from the model's own failed attempts together with the standard RLVR objective, CIPO improves learning effectiveness while explicitly enhancing the model's ability to correct its own errors. Extensive experiments across 11 benchmarks spanning mathematical reasoning and code generation demonstrate that CIPO consistently and significantly outperforms strong baselines in both reasoning and correction performance. Moreover, CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers.