ChatPaper.aiChatPaper

Überbrückung von überwachtem Lernen und bestärkendem Lernen im mathematischen Denken

Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

May 23, 2025
Autoren: Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang
cs.AI

Zusammenfassung

Reinforcement Learning (RL) hat eine zentrale Rolle beim jüngsten Anstieg der mathematischen Fähigkeiten von LLMs gespielt, indem es Selbstverbesserung durch binäre Verifikationssignale ermöglicht. Im Gegensatz dazu wird Supervised Learning (SL) selten für solches verifikationsgesteuertes Training in Betracht gezogen, hauptsächlich aufgrund seiner starken Abhängigkeit von Referenzantworten und seiner Unfähigkeit, Fehler zu reflektieren. In dieser Arbeit stellen wir die vorherrschende Ansicht in Frage, dass Selbstverbesserung ausschließlich RL vorbehalten ist, und schlagen Negative-aware Fine-Tuning (NFT) vor – einen überwachten Ansatz, der es LLMs ermöglicht, ihre Fehler zu reflektieren und autonom ohne externe Lehrer zu verbessern. Beim Online-Training verwirft NFT selbstgenerierte negative Antworten nicht, sondern konstruiert eine implizite Negativpolitik, um sie zu modellieren. Diese implizite Politik wird mit demselben positiven LLM parametrisiert, das wir auf positiven Daten optimieren möchten, wodurch eine direkte Politikoptimierung für alle Generationen der LLMs ermöglicht wird. Wir führen Experimente mit 7B- und 32B-Modellen in mathematischen Denkaufgaben durch. Die Ergebnisse zeigen durchweg, dass NFT durch die zusätzliche Nutzung von negativem Feedback die SL-Baselines wie Rejection Sampling Fine-Tuning deutlich übertrifft und führende RL-Algorithmen wie GRPO und DAPO erreicht oder sogar übertrifft. Darüber hinaus demonstrieren wir, dass NFT und GRPO im strengen On-Policy-Training tatsächlich äquivalent sind, obwohl sie aus völlig unterschiedlichen theoretischen Grundlagen stammen. Unsere Experimente und theoretischen Erkenntnisse überbrücken die Lücke zwischen SL- und RL-Methoden in binären Feedback-Lernsystemen.
English
Reinforcement Learning (RL) has played a central role in the recent surge of LLMs' math abilities by enabling self-improvement through binary verifier signals. In contrast, Supervised Learning (SL) is rarely considered for such verification-driven training, largely due to its heavy reliance on reference answers and inability to reflect on mistakes. In this work, we challenge the prevailing notion that self-improvement is exclusive to RL and propose Negative-aware Fine-Tuning (NFT) -- a supervised approach that enables LLMs to reflect on their failures and improve autonomously with no external teachers. In online training, instead of throwing away self-generated negative answers, NFT constructs an implicit negative policy to model them. This implicit policy is parameterized with the same positive LLM we target to optimize on positive data, enabling direct policy optimization on all LLMs' generations. We conduct experiments on 7B and 32B models in math reasoning tasks. Results consistently show that through the additional leverage of negative feedback, NFT significantly improves over SL baselines like Rejection sampling Fine-Tuning, matching or even surpassing leading RL algorithms like GRPO and DAPO. Furthermore, we demonstrate that NFT and GRPO are actually equivalent in strict-on-policy training, even though they originate from entirely different theoretical foundations. Our experiments and theoretical findings bridge the gap between SL and RL methods in binary-feedback learning systems.

Summary

AI-Generated Summary

PDF42May 27, 2025