DenoiseRL: бутстрэппинг моделей рассуждений для восстановления после зашумленных префиксов

Аннотация

Обучение с подкреплением стало центральной парадигмой для развития рассуждений в больших языковых моделях, однако большинство существующих методов по-прежнему полагаются на более сильные модели-учителя или тщательно подобранные сложные наборы данных, что ограничивает масштабируемое улучшение возможностей. В этой статье мы представляем DenoiseRL — фреймворк обучения с подкреплением, который заменяет внешнее руководство оптимизацией, ориентированной на восстановление, на основе ошибок слабых моделей. Вместо того чтобы полагаться на более сильное руководство или тщательно подготовленные данные, DenoiseRL учится напрямую на некорректных цепочках рассуждений, превращая их в возможности для улучшения, что делает обучение более масштабируемым и менее зависимым от внешних ресурсов. Это дает более богатый и разнообразный обучающий сигнал, повышая эффективность исследования на основе несовершенного поведения модели. В результате DenoiseRL улучшает производительность рассуждений и общую эффективность обучения, снижая потребность в дорогостоящей курации данных или более сильных моделях-учителях. Эмпирически DenoiseRL стабильно превосходит сильные базовые методы обучения с подкреплением (on-policy) на соревновательных математических и общих бенчмарках для рассуждений, а также способствует более сильному самокорректирующему поведению по мере увеличения сложности обучения, что подчеркивает эффективный и масштабируемый альтернативный путь улучшения рассуждений в больших языковых моделях.

English

Reinforcement learning has become a central paradigm for advancing reasoning in large language models, yet most existing methods still depend on stronger teacher models or heavily curated difficult datasets, limiting scalable capability improvement. In this paper, we introduce DenoiseRL, a reinforcement learning framework that substitutes external supervision with recovery-oriented optimization over failures from weak models. Instead of relying on stronger supervision or carefully engineered data, DenoiseRL learns directly from incorrect reasoning traces by converting them into opportunities for improvement, making training more scalable and less dependent on external resources. This yields a richer and more diverse learning signal, improving exploration efficiency from imperfect model behavior. As a result, DenoiseRL improves reasoning performance and overall training efficiency while reducing the need for expensive data curation or stronger teacher models. Empirically, DenoiseRL consistently outperforms strong on-policy RL baselines across competitive mathematical and general reasoning benchmarks and promotes stronger self-corrective behavior as training difficulty increases, highlighting an effective and scalable alternative pathway for improving reasoning in large language models.