ChatPaper.aiChatPaper

Apprentissage par Renforcement Supervisé : Des Trajectoires Expertes au Raisonnement Pas-à-Pas

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

October 29, 2025
papers.authors: Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee
cs.AI

papers.abstract

Les grands modèles de langage (LLM) éprouvent souvent des difficultés avec les problèmes nécessitant un raisonnement à plusieurs étapes. Pour les petits modèles open-source, le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) échoue lorsque les solutions correctes sont rarement échantillonnées même après de nombreuses tentatives, tandis que le Fine-Tuning Supervisé (SFT) tend à surajuster les longues démonstrations par une imitation rigide token par token. Pour combler cette lacune, nous proposons l'Apprentissage par Renforcement Supervisé (SRL), un cadre qui reformule la résolution de problèmes comme la génération d'une séquence d'"actions" logiques. SRL entraîne le modèle à générer un monologue de raisonnement interne avant de s'engager dans chaque action. Il fournit des récompenses plus progressives basées sur la similarité entre les actions du modèle et les actions expertes extraites du jeu de données SFT, étape par étape. Cette supervision offre des signaux d'apprentissage plus riches même lorsque tous les déploiements sont incorrects, tout en encourageant un raisonnement flexible guidé par les démonstrations expertes. En conséquence, SRL permet aux petits modèles d'apprendre des problèmes complexes précédemment inaccessibles au SFT ou au RLVR. De plus, initialiser l'entraînement avec SRL avant de l'affiner avec RLVR produit les performances globales les plus solides. Au-delà des benchmarks de raisonnement, SRL se généralise efficacement aux tâches de génie logiciel agentique, l'établissant comme un cadre d'entraînement robuste et polyvalent pour les LLM orientés raisonnement.
English
Large Language Models (LLMs) often struggle with problems that require multi-step reasoning. For small-scale open-source models, Reinforcement Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to overfit long demonstrations through rigid token-by-token imitation. To address this gap, we propose Supervised Reinforcement Learning (SRL), a framework that reformulates problem solving as generating a sequence of logical "actions". SRL trains the model to generate an internal reasoning monologue before committing to each action. It provides smoother rewards based on the similarity between the model's actions and expert actions extracted from the SFT dataset in a step-wise manner. This supervision offers richer learning signals even when all rollouts are incorrect, while encouraging flexible reasoning guided by expert demonstrations. As a result, SRL enables small models to learn challenging problems previously unlearnable by SFT or RLVR. Moreover, initializing training with SRL before refining with RLVR yields the strongest overall performance. Beyond reasoning benchmarks, SRL generalizes effectively to agentic software engineering tasks, establishing it as a robust and versatile training framework for reasoning-oriented LLMs.
PDF442December 2, 2025