Apprendre des échecs : optimisation de politique orientée correction avec des récompenses vérifiables

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme efficace pour améliorer les capacités de raisonnement des grands modèles de langage. Cependant, l'entraînement RLVR est souvent entravé par des récompenses binaires éparses et une faible attribution de crédit, ce qui génère des signaux d'optimisation ambigus et une sous-utilisation des informations utiles contenues dans les trajectoires défaillantes. Pour relever ce défi, nous proposons l'Optimisation de politique orientée correction (CIPO), une extension simple et efficace du RLVR qui transforme les trajectoires défaillantes en politique en une supervision orientée correction, sans recourir à aucun signal externe. En optimisant conjointement les échantillons de correction issus des propres tentatives échouées du modèle avec l'objectif standard du RLVR, CIPO améliore l'efficacité de l'apprentissage tout en renforçant explicitement la capacité du modèle à corriger ses propres erreurs. Des expériences approfondies sur 11 benchmarks couvrant le raisonnement mathématique et la génération de code montrent que CIPO surpasse de manière constante et significative les lignes de base solides en termes de raisonnement et de performance de correction. De plus, CIPO produit des gains pass@K plus importants, indiquant qu'il améliore la capacité de raisonnement intrinsèque du modèle plutôt que de simplement redistribuer la masse de probabilité sur les réponses correctes existantes.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective paradigm for improving the reasoning capabilities of large language models. However, RLVR training is often hindered by sparse binary rewards and weak credit assignment, resulting in ambiguous optimization signals and underutilization of the useful information embedded in failed trajectories. To address this challenge, we propose Correction-Oriented Policy Optimization (CIPO), a simple and effective extension to RLVR that converts on-policy failed trajectories into correction-oriented supervision, without relying on any external signals. By jointly optimizing correction samples derived from the model's own failed attempts together with the standard RLVR objective, CIPO improves learning effectiveness while explicitly enhancing the model's ability to correct its own errors. Extensive experiments across 11 benchmarks spanning mathematical reasoning and code generation demonstrate that CIPO consistently and significantly outperforms strong baselines in both reasoning and correction performance. Moreover, CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers.