실패로부터 배우기: 검증 가능한 보상을 이용한 수정 중심 정책 최적화
Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards
May 14, 2026
저자: Mengjie Ren, Jie Lou, Boxi Cao, Xueru Wen, Hongyu Lin, Xianpei Han, Le Sun, Xing Yu, Yaojie Lu
cs.AI
초록
검증 가능한 보상을 통한 강화 학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시키기 위한 효과적인 패러다임으로 부상했다. 그러나 RLVR 훈련은 종종 희소 이진 보상과 약한 신용 할당으로 인해 제약을 받으며, 그 결과 모호한 최적화 신호와 실패 궤적에 포함된 유용한 정보의 저활용이 초래된다. 이러한 문제를 해결하기 위해, 우리는 RLVR에 대한 간단하면서도 효과적인 확장인 수정 지향 정책 최적화(CIPO)를 제안한다. CIPO는 외부 신호에 의존하지 않고 정책상 실패 궤적을 수정 지향 감독으로 변환한다. 모델 자체의 실패 시도로부터 도출된 수정 샘플을 표준 RLVR 목적 함수와 함께 공동으로 최적화함으로써, CIPO는 학습 효과성을 개선하는 동시에 모델이 자체 오류를 수정하는 능력을 명시적으로 향상시킨다. 수학적 추론과 코드 생성을 아우르는 11개 벤치마크에 걸친 광범위한 실험은 CIPO가 추론 및 수정 성능 모두에서 강력한 기준선을 일관되고 유의미하게 능가함을 보여준다. 또한 CIPO는 더 강력한 pass@K 이득을 산출하는데, 이는 모델의 내재적 추론 능력을 단순히 기존 정답에 대한 확률 질량을 재분배하는 것이 아니라 향상시킨다는 것을 시사한다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective paradigm for improving the reasoning capabilities of large language models. However, RLVR training is often hindered by sparse binary rewards and weak credit assignment, resulting in ambiguous optimization signals and underutilization of the useful information embedded in failed trajectories. To address this challenge, we propose Correction-Oriented Policy Optimization (CIPO), a simple and effective extension to RLVR that converts on-policy failed trajectories into correction-oriented supervision, without relying on any external signals. By jointly optimizing correction samples derived from the model's own failed attempts together with the standard RLVR objective, CIPO improves learning effectiveness while explicitly enhancing the model's ability to correct its own errors. Extensive experiments across 11 benchmarks spanning mathematical reasoning and code generation demonstrate that CIPO consistently and significantly outperforms strong baselines in both reasoning and correction performance. Moreover, CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers.