Lernen aus Fehlern: Korrekturorientierte Policy-Optimierung mit verifizierbaren Belohnungen

Zusammenfassung

Verstärkungslernen mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) hat sich als effektives Paradigma zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle erwiesen. Allerdings wird das RLVR-Training oft durch spärliche binäre Belohnungen und schwache Kreditzuweisung behindert, was zu mehrdeutigen Optimierungssignalen und einer unzureichenden Nutzung der in fehlgeschlagenen Trajektorien enthaltenen nützlichen Informationen führt. Um dieser Herausforderung zu begegnen, schlagen wir die korrekturorientierte Politikoptimierung (Correction-Oriented Policy Optimization, CIPO) vor – eine einfache und effektive Erweiterung von RLVR, die on-policy fehlgeschlagene Trajektorien in korrekturorientierte Überwachung umwandelt, ohne auf externe Signale angewiesen zu sein. Durch die gemeinsame Optimierung von Korrekturbeispielen, die aus den eigenen fehlgeschlagenen Versuchen des Modells abgeleitet werden, zusammen mit dem standardmäßigen RLVR-Ziel, verbessert CIPO die Lerneffektivität und steigert explizit die Fähigkeit des Modells, seine eigenen Fehler zu korrigieren. Umfangreiche Experimente über 11 Benchmarks hinweg, die mathematisches Reasoning und Codegenerierung abdecken, zeigen, dass CIPO durchgängig und signifikant bessere Ergebnisse als starke Baselines sowohl in Bezug auf Reasoning- als auch auf Korrekturleistung erzielt. Darüber hinaus erzielt CIPO stärkere pass@K-Gewinne, was darauf hindeutet, dass es die intrinsische Reasoning-Fähigkeit des Modells verbessert und nicht nur die Wahrscheinlichkeitsmasse über bestehende korrekte Antworten umverteilt.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective paradigm for improving the reasoning capabilities of large language models. However, RLVR training is often hindered by sparse binary rewards and weak credit assignment, resulting in ambiguous optimization signals and underutilization of the useful information embedded in failed trajectories. To address this challenge, we propose Correction-Oriented Policy Optimization (CIPO), a simple and effective extension to RLVR that converts on-policy failed trajectories into correction-oriented supervision, without relying on any external signals. By jointly optimizing correction samples derived from the model's own failed attempts together with the standard RLVR objective, CIPO improves learning effectiveness while explicitly enhancing the model's ability to correct its own errors. Extensive experiments across 11 benchmarks spanning mathematical reasoning and code generation demonstrate that CIPO consistently and significantly outperforms strong baselines in both reasoning and correction performance. Moreover, CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers.