Overbrugging van Supervised Learning en Reinforcement Learning in Wiskundig Redeneren
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning
May 23, 2025
Auteurs: Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang
cs.AI
Samenvatting
Reinforcement Learning (RL) heeft een centrale rol gespeeld in de recente opkomst van de wiskundige vaardigheden van LLM's door zelfverbetering mogelijk te maken via binaire verificatiesignalen. Daarentegen wordt Supervised Learning (SL) zelden overwogen voor dergelijke verificatiegestuurde training, voornamelijk vanwege de sterke afhankelijkheid van referentieantwoorden en het onvermogen om fouten te reflecteren. In dit werk dagen we de heersende opvatting uit dat zelfverbetering exclusief is voor RL en introduceren we Negative-aware Fine-Tuning (NFT) -- een gesuperviseerde aanpak die LLM's in staat stelt om hun fouten te reflecteren en autonoom te verbeteren zonder externe begeleiders. Tijdens online training, in plaats van zelf gegenereerde negatieve antwoorden weg te gooien, construeert NFT een impliciet negatief beleid om deze te modelleren. Dit impliciete beleid wordt geparametriseerd met hetzelfde positieve LLM dat we willen optimaliseren op positieve data, waardoor directe beleidsoptimalisatie mogelijk wordt op alle generaties van LLM's. We voeren experimenten uit op 7B en 32B modellen in wiskundige redeneertaken. De resultaten tonen consistent aan dat NFT, door het extra benutten van negatieve feedback, significant verbetert ten opzichte van SL-baselines zoals Rejection sampling Fine-Tuning, en zelfs leidende RL-algoritmen zoals GRPO en DAPO evenaart of overtreft. Bovendien tonen we aan dat NFT en GRPO feitelijk equivalent zijn in strikt-on-policy training, ondanks dat ze voortkomen uit volledig verschillende theoretische fundamenten. Onze experimenten en theoretische bevindingen overbruggen de kloof tussen SL- en RL-methoden in binaire-feedback leer systemen.
English
Reinforcement Learning (RL) has played a central role in the recent surge of
LLMs' math abilities by enabling self-improvement through binary verifier
signals. In contrast, Supervised Learning (SL) is rarely considered for such
verification-driven training, largely due to its heavy reliance on reference
answers and inability to reflect on mistakes. In this work, we challenge the
prevailing notion that self-improvement is exclusive to RL and propose
Negative-aware Fine-Tuning (NFT) -- a supervised approach that enables LLMs to
reflect on their failures and improve autonomously with no external teachers.
In online training, instead of throwing away self-generated negative answers,
NFT constructs an implicit negative policy to model them. This implicit policy
is parameterized with the same positive LLM we target to optimize on positive
data, enabling direct policy optimization on all LLMs' generations. We conduct
experiments on 7B and 32B models in math reasoning tasks. Results consistently
show that through the additional leverage of negative feedback, NFT
significantly improves over SL baselines like Rejection sampling Fine-Tuning,
matching or even surpassing leading RL algorithms like GRPO and DAPO.
Furthermore, we demonstrate that NFT and GRPO are actually equivalent in
strict-on-policy training, even though they originate from entirely different
theoretical foundations. Our experiments and theoretical findings bridge the
gap between SL and RL methods in binary-feedback learning systems.