Faire le lien entre l'apprentissage supervisé et l'apprentissage par renforcement dans le raisonnement mathématique
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning
May 23, 2025
papers.authors: Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang
cs.AI
papers.abstract
L'apprentissage par renforcement (Reinforcement Learning, RL) a joué un rôle central dans l'essor récent des capacités mathématiques des LLMs (Large Language Models) en permettant l'auto-amélioration grâce à des signaux de vérification binaires. En revanche, l'apprentissage supervisé (Supervised Learning, SL) est rarement envisagé pour ce type d'entraînement basé sur la vérification, principalement en raison de sa forte dépendance aux réponses de référence et de son incapacité à réfléchir sur les erreurs. Dans ce travail, nous remettons en question l'idée prédominante selon laquelle l'auto-amélioration est exclusive au RL et proposons le Fine-Tuning Sensible aux Négatifs (Negative-aware Fine-Tuning, NFT) — une approche supervisée qui permet aux LLMs de réfléchir à leurs échecs et de s'améliorer de manière autonome sans enseignants externes.
Dans l'entraînement en ligne, au lieu de rejeter les réponses négatives auto-générées, NFT construit une politique implicite négative pour les modéliser. Cette politique implicite est paramétrée avec le même LLM positif que nous cherchons à optimiser sur les données positives, permettant ainsi une optimisation directe de la politique sur toutes les générations des LLMs. Nous menons des expériences sur des modèles de 7B et 32B dans des tâches de raisonnement mathématique. Les résultats montrent systématiquement qu'en tirant parti des retours négatifs, NFT améliore significativement les performances par rapport aux bases de référence en SL comme le Fine-Tuning par échantillonnage de rejet, égalant voire surpassant des algorithmes de RL leaders comme GRPO et DAPO.
De plus, nous démontrons que NFT et GRPO sont en fait équivalents dans un entraînement strictement sur-politique, bien qu'ils proviennent de fondements théoriques entièrement différents. Nos expériences et conclusions théoriques comblent le fossé entre les méthodes SL et RL dans les systèmes d'apprentissage à retour binaire.
English
Reinforcement Learning (RL) has played a central role in the recent surge of
LLMs' math abilities by enabling self-improvement through binary verifier
signals. In contrast, Supervised Learning (SL) is rarely considered for such
verification-driven training, largely due to its heavy reliance on reference
answers and inability to reflect on mistakes. In this work, we challenge the
prevailing notion that self-improvement is exclusive to RL and propose
Negative-aware Fine-Tuning (NFT) -- a supervised approach that enables LLMs to
reflect on their failures and improve autonomously with no external teachers.
In online training, instead of throwing away self-generated negative answers,
NFT constructs an implicit negative policy to model them. This implicit policy
is parameterized with the same positive LLM we target to optimize on positive
data, enabling direct policy optimization on all LLMs' generations. We conduct
experiments on 7B and 32B models in math reasoning tasks. Results consistently
show that through the additional leverage of negative feedback, NFT
significantly improves over SL baselines like Rejection sampling Fine-Tuning,
matching or even surpassing leading RL algorithms like GRPO and DAPO.
Furthermore, we demonstrate that NFT and GRPO are actually equivalent in
strict-on-policy training, even though they originate from entirely different
theoretical foundations. Our experiments and theoretical findings bridge the
gap between SL and RL methods in binary-feedback learning systems.