Leren van mislukkingen: Correctiegerichte beleidsoptimalisatie met verifieerbare beloningen

Samenvatting

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is uitgegroeid tot een effectief paradigma voor het verbeteren van de redeneercapaciteiten van grote taalmodellen. RLVR-training wordt echter vaak belemmerd door schaarse binaire beloningen en zwakke krediettoewijzing, wat leidt tot ambigue optimalisatiesignalen en onderbenutting van de nuttige informatie die in mislukte trajecten is ingebed. Om deze uitdaging aan te pakken, stellen we Correctiegerichte Beleidsoptimalisatie (CIPO) voor, een eenvoudige en effectieve uitbreiding van RLVR die on-policy mislukte trajecten omzet in correctiegerichte supervisie, zonder afhankelijk te zijn van externe signalen. Door correctievoorbeelden, afgeleid van de eigen mislukte pogingen van het model, gezamenlijk te optimaliseren met de standaard RLVR-doelstelling, verbetert CIPO de leereffectiviteit terwijl expliciet het vermogen van het model om eigen fouten te corrigeren wordt versterkt. Uitgebreide experimenten over 11 benchmarks op het gebied van wiskundig redeneren en codegeneratie tonen aan dat CIPO consequent en significant beter presteert dan sterke baselines, zowel wat betreft redeneer- als correctieprestaties. Bovendien levert CIPO sterkere pass@K-winsten op, wat aangeeft dat het de intrinsieke redeneercapaciteit van het model verbetert in plaats van slechts de kansmassa over bestaande correcte antwoorden te herverdelen.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective paradigm for improving the reasoning capabilities of large language models. However, RLVR training is often hindered by sparse binary rewards and weak credit assignment, resulting in ambiguous optimization signals and underutilization of the useful information embedded in failed trajectories. To address this challenge, we propose Correction-Oriented Policy Optimization (CIPO), a simple and effective extension to RLVR that converts on-policy failed trajectories into correction-oriented supervision, without relying on any external signals. By jointly optimizing correction samples derived from the model's own failed attempts together with the standard RLVR objective, CIPO improves learning effectiveness while explicitly enhancing the model's ability to correct its own errors. Extensive experiments across 11 benchmarks spanning mathematical reasoning and code generation demonstrate that CIPO consistently and significantly outperforms strong baselines in both reasoning and correction performance. Moreover, CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers.