Обучение на ошибках: коррекционно-ориентированная оптимизация политики с проверяемыми вознаграждениями

Аннотация

Обучение с подкреплением с проверяемыми наградами (RLVR) стало эффективной парадигмой для улучшения способностей больших языковых моделей к рассуждению. Однако обучение RLVR часто затрудняется разреженными бинарными наградами и слабым распределением кредита, что приводит к неоднозначным сигналам оптимизации и недоиспользованию полезной информации, содержащейся в неудачных траекториях. Для решения этой проблемы мы предлагаем оптимизацию политики, ориентированную на исправления (CIPO) — простое и эффективное расширение RLVR, которое преобразует неудачные траектории, полученные во время текущей политики, в супервизию, ориентированную на исправления, без использования каких-либо внешних сигналов. Совместная оптимизация примеров исправлений, полученных из собственных неудачных попыток модели, вместе со стандартной целью RLVR повышает эффективность обучения, одновременно явно улучшая способность модели исправлять собственные ошибки. Обширные эксперименты на 11 эталонных тестах, охватывающих математическое рассуждение и генерацию кода, показывают, что CIPO последовательно и значительно превосходит сильные базовые линии как по качеству рассуждений, так и по способности к исправлению. Более того, CIPO обеспечивает более высокий выигрыш в метрике pass@K, что указывает на улучшение внутренней способности модели к рассуждению, а не просто на перераспределение массы вероятности среди существующих правильных ответов.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective paradigm for improving the reasoning capabilities of large language models. However, RLVR training is often hindered by sparse binary rewards and weak credit assignment, resulting in ambiguous optimization signals and underutilization of the useful information embedded in failed trajectories. To address this challenge, we propose Correction-Oriented Policy Optimization (CIPO), a simple and effective extension to RLVR that converts on-policy failed trajectories into correction-oriented supervision, without relying on any external signals. By jointly optimizing correction samples derived from the model's own failed attempts together with the standard RLVR objective, CIPO improves learning effectiveness while explicitly enhancing the model's ability to correct its own errors. Extensive experiments across 11 benchmarks spanning mathematical reasoning and code generation demonstrate that CIPO consistently and significantly outperforms strong baselines in both reasoning and correction performance. Moreover, CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers.