Соединение методов обучения с учителем и обучения с подкреплением в математических рассуждениях
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning
May 23, 2025
Авторы: Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang
cs.AI
Аннотация
Обучение с подкреплением (Reinforcement Learning, RL) сыграло ключевую роль в недавнем прогрессе математических способностей крупных языковых моделей (LLMs), обеспечивая самоулучшение через бинарные сигналы верификации. В отличие от этого, обучение с учителем (Supervised Learning, SL) редко рассматривается для подобного обучения, основанного на верификации, в основном из-за его сильной зависимости от эталонных ответов и неспособности анализировать ошибки. В данной работе мы оспариваем преобладающее мнение о том, что самоулучшение является исключительной прерогативой RL, и предлагаем Negative-aware Fine-Tuning (NFT) — подход на основе SL, который позволяет LLMs анализировать свои ошибки и улучшаться автономно без внешних учителей. В процессе онлайн-обучения вместо того, чтобы отбрасывать самостоятельно сгенерированные отрицательные ответы, NFT строит неявную негативную политику для их моделирования. Эта неявная политика параметризуется той же положительной LLM, которую мы стремимся оптимизировать на положительных данных, что позволяет напрямую оптимизировать политику на всех генерациях LLM. Мы проводим эксперименты на моделях размером 7B и 32B в задачах математического рассуждения. Результаты последовательно показывают, что благодаря дополнительному использованию негативной обратной связи NFT значительно превосходит базовые методы SL, такие как Rejection sampling Fine-Tuning, и достигает или даже превосходит ведущие алгоритмы RL, такие как GRPO и DAPO. Кроме того, мы демонстрируем, что NFT и GRPO фактически эквивалентны в строго on-policy обучении, несмотря на их совершенно разные теоретические основы. Наши эксперименты и теоретические выводы устраняют разрыв между методами SL и RL в системах обучения с бинарной обратной связью.
English
Reinforcement Learning (RL) has played a central role in the recent surge of
LLMs' math abilities by enabling self-improvement through binary verifier
signals. In contrast, Supervised Learning (SL) is rarely considered for such
verification-driven training, largely due to its heavy reliance on reference
answers and inability to reflect on mistakes. In this work, we challenge the
prevailing notion that self-improvement is exclusive to RL and propose
Negative-aware Fine-Tuning (NFT) -- a supervised approach that enables LLMs to
reflect on their failures and improve autonomously with no external teachers.
In online training, instead of throwing away self-generated negative answers,
NFT constructs an implicit negative policy to model them. This implicit policy
is parameterized with the same positive LLM we target to optimize on positive
data, enabling direct policy optimization on all LLMs' generations. We conduct
experiments on 7B and 32B models in math reasoning tasks. Results consistently
show that through the additional leverage of negative feedback, NFT
significantly improves over SL baselines like Rejection sampling Fine-Tuning,
matching or even surpassing leading RL algorithms like GRPO and DAPO.
Furthermore, we demonstrate that NFT and GRPO are actually equivalent in
strict-on-policy training, even though they originate from entirely different
theoretical foundations. Our experiments and theoretical findings bridge the
gap between SL and RL methods in binary-feedback learning systems.Summary
AI-Generated Summary