Collegare l'Apprendimento Supervisionato e l'Apprendimento per Rinforzo nel Ragionamento Matematico
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning
May 23, 2025
Autori: Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang
cs.AI
Abstract
L'Apprendimento per Rinforzo (Reinforcement Learning, RL) ha svolto un ruolo centrale nel recente incremento delle capacità matematiche dei Modelli Linguistici di Grande Dimensione (LLMs), consentendo l'auto-miglioramento attraverso segnali binari di verifica. Al contrario, l'Apprendimento Supervisionato (Supervised Learning, SL) è raramente considerato per questo tipo di formazione basata sulla verifica, principalmente a causa della sua forte dipendenza da risposte di riferimento e dell'incapacità di riflettere sugli errori. In questo lavoro, mettiamo in discussione l'idea prevalente che l'auto-miglioramento sia esclusivo dell'RL e proponiamo il Fine-Tuning Consapevole del Negativo (Negative-aware Fine-Tuning, NFT) — un approccio supervisionato che consente agli LLMs di riflettere sui propri fallimenti e migliorare autonomamente senza insegnanti esterni. Nella formazione online, invece di scartare le risposte negative auto-generate, l'NFT costruisce una politica negativa implicita per modellarle. Questa politica implicita è parametrizzata con lo stesso LLM positivo che miriamo a ottimizzare sui dati positivi, consentendo l'ottimizzazione diretta della politica su tutte le generazioni degli LLMs. Abbiamo condotto esperimenti su modelli da 7B e 32B in compiti di ragionamento matematico. I risultati mostrano costantemente che, attraverso il vantaggio aggiuntivo del feedback negativo, l'NFT migliora significativamente rispetto ai baselines di SL come il Fine-Tuning con Campionamento di Rifiuto, eguagliando o addirittura superando algoritmi di RL leader come GRPO e DAPO. Inoltre, dimostriamo che l'NFT e il GRPO sono effettivamente equivalenti in una formazione strettamente on-policy, nonostante abbiano origini teoriche completamente diverse. I nostri esperimenti e risultati teorici colmano il divario tra i metodi di SL e RL nei sistemi di apprendimento con feedback binario.
English
Reinforcement Learning (RL) has played a central role in the recent surge of
LLMs' math abilities by enabling self-improvement through binary verifier
signals. In contrast, Supervised Learning (SL) is rarely considered for such
verification-driven training, largely due to its heavy reliance on reference
answers and inability to reflect on mistakes. In this work, we challenge the
prevailing notion that self-improvement is exclusive to RL and propose
Negative-aware Fine-Tuning (NFT) -- a supervised approach that enables LLMs to
reflect on their failures and improve autonomously with no external teachers.
In online training, instead of throwing away self-generated negative answers,
NFT constructs an implicit negative policy to model them. This implicit policy
is parameterized with the same positive LLM we target to optimize on positive
data, enabling direct policy optimization on all LLMs' generations. We conduct
experiments on 7B and 32B models in math reasoning tasks. Results consistently
show that through the additional leverage of negative feedback, NFT
significantly improves over SL baselines like Rejection sampling Fine-Tuning,
matching or even surpassing leading RL algorithms like GRPO and DAPO.
Furthermore, we demonstrate that NFT and GRPO are actually equivalent in
strict-on-policy training, even though they originate from entirely different
theoretical foundations. Our experiments and theoretical findings bridge the
gap between SL and RL methods in binary-feedback learning systems.