Supervised Reinforcement Learning: Van expert trajecten naar stap-voor-stap redeneren
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
October 29, 2025
Auteurs: Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) worstelen vaak met problemen die meerstaps redeneren vereisen. Voor kleinschalige open-source modellen faalt Reinforcement Learning met Verifieerbare Beloningen (RLVR) wanneer correcte oplossingen zelfs na vele pogingen zelden worden gegenereerd, terwijl Supervised Fine-Tuning (SFT) de neiging heeft om te overfitten op lange demonstraties door rigide imitatie token-voor-token. Om deze kloof te dichten, stellen we Supervised Reinforcement Learning (SRL) voor, een raamwerk dat probleemoplossing herformuleert als het genereren van een reeks logische "acties". SRL traint het model om een interne redeneermonoloog te genereren voordat het zich vastlegt op elke actie. Het biedt vloeiendere beloningen op basis van de gelijkenis tussen de acties van het model en expertacties die stapsgewijs uit de SFT-dataset worden gehaald. Deze supervisie biedt rijkere leer signalen, zelfs wanneer alle gegenereerde trajecten incorrect zijn, en moedigt tegelijkertijd flexibel redeneren aan onder begeleiding van expertdemonstraties. Hierdoor stelt SRL kleine modellen in staat om uitdagende problemen te leren die voorheen niet leerbaar waren met SFT of RLVR. Bovendien levert het initialiseren van de training met SRL, gevolgd door verfijning met RLVR, de sterkste algehele prestaties op. Naast redeneerbenchmarks generaliseert SRL effectief naar agent-gestuurde software-engineeringtaken, wat het vestigt als een robuust en veelzijdig trainingsraamwerk voor op redeneren gerichte LLM's.
English
Large Language Models (LLMs) often struggle with problems that require
multi-step reasoning. For small-scale open-source models, Reinforcement
Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely
sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to
overfit long demonstrations through rigid token-by-token imitation. To address
this gap, we propose Supervised Reinforcement Learning (SRL), a framework that
reformulates problem solving as generating a sequence of logical "actions". SRL
trains the model to generate an internal reasoning monologue before committing
to each action. It provides smoother rewards based on the similarity between
the model's actions and expert actions extracted from the SFT dataset in a
step-wise manner. This supervision offers richer learning signals even when all
rollouts are incorrect, while encouraging flexible reasoning guided by expert
demonstrations. As a result, SRL enables small models to learn challenging
problems previously unlearnable by SFT or RLVR. Moreover, initializing training
with SRL before refining with RLVR yields the strongest overall performance.
Beyond reasoning benchmarks, SRL generalizes effectively to agentic software
engineering tasks, establishing it as a robust and versatile training framework
for reasoning-oriented LLMs.