ChatPaper.aiChatPaper

Faire le lien entre l'apprentissage supervisé et l'apprentissage par renforcement dans le raisonnement mathématique

Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

May 23, 2025
papers.authors: Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang
cs.AI

papers.abstract

L'apprentissage par renforcement (Reinforcement Learning, RL) a joué un rôle central dans l'essor récent des capacités mathématiques des LLMs (Large Language Models) en permettant l'auto-amélioration grâce à des signaux de vérification binaires. En revanche, l'apprentissage supervisé (Supervised Learning, SL) est rarement envisagé pour ce type d'entraînement basé sur la vérification, principalement en raison de sa forte dépendance aux réponses de référence et de son incapacité à réfléchir sur les erreurs. Dans ce travail, nous remettons en question l'idée prédominante selon laquelle l'auto-amélioration est exclusive au RL et proposons le Fine-Tuning Sensible aux Négatifs (Negative-aware Fine-Tuning, NFT) — une approche supervisée qui permet aux LLMs de réfléchir à leurs échecs et de s'améliorer de manière autonome sans enseignants externes. Dans l'entraînement en ligne, au lieu de rejeter les réponses négatives auto-générées, NFT construit une politique implicite négative pour les modéliser. Cette politique implicite est paramétrée avec le même LLM positif que nous cherchons à optimiser sur les données positives, permettant ainsi une optimisation directe de la politique sur toutes les générations des LLMs. Nous menons des expériences sur des modèles de 7B et 32B dans des tâches de raisonnement mathématique. Les résultats montrent systématiquement qu'en tirant parti des retours négatifs, NFT améliore significativement les performances par rapport aux bases de référence en SL comme le Fine-Tuning par échantillonnage de rejet, égalant voire surpassant des algorithmes de RL leaders comme GRPO et DAPO. De plus, nous démontrons que NFT et GRPO sont en fait équivalents dans un entraînement strictement sur-politique, bien qu'ils proviennent de fondements théoriques entièrement différents. Nos expériences et conclusions théoriques comblent le fossé entre les méthodes SL et RL dans les systèmes d'apprentissage à retour binaire.
English
Reinforcement Learning (RL) has played a central role in the recent surge of LLMs' math abilities by enabling self-improvement through binary verifier signals. In contrast, Supervised Learning (SL) is rarely considered for such verification-driven training, largely due to its heavy reliance on reference answers and inability to reflect on mistakes. In this work, we challenge the prevailing notion that self-improvement is exclusive to RL and propose Negative-aware Fine-Tuning (NFT) -- a supervised approach that enables LLMs to reflect on their failures and improve autonomously with no external teachers. In online training, instead of throwing away self-generated negative answers, NFT constructs an implicit negative policy to model them. This implicit policy is parameterized with the same positive LLM we target to optimize on positive data, enabling direct policy optimization on all LLMs' generations. We conduct experiments on 7B and 32B models in math reasoning tasks. Results consistently show that through the additional leverage of negative feedback, NFT significantly improves over SL baselines like Rejection sampling Fine-Tuning, matching or even surpassing leading RL algorithms like GRPO and DAPO. Furthermore, we demonstrate that NFT and GRPO are actually equivalent in strict-on-policy training, even though they originate from entirely different theoretical foundations. Our experiments and theoretical findings bridge the gap between SL and RL methods in binary-feedback learning systems.
PDF42May 27, 2025