Überwachtes Reinforcement Learning: Von Experten-Trajektorien zu schrittweisem Denken
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
October 29, 2025
papers.authors: Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben oft Schwierigkeiten mit Problemen, die mehrstufiges logisches Denken erfordern. Bei kleinen Open-Source-Modellen versagt Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), wenn korrekte Lösungen selbst nach vielen Versuchen nur selten generiert werden, während Supervised Fine-Tuning (SFT) dazu neigt, lange Lösungsdemonstrationen durch starre, tokenweise Nachahmung zu überanpassen. Um diese Lücke zu schließen, schlagen wir Supervised Reinforcement Learning (SRL) vor, ein Framework, das Problemlösung als Generieren einer Sequenz logischer "Aktionen" reformuliert. SRL trainiert das Modell, vor jeder Aktion einen internen Denkmonolog zu generieren. Es bietet glattere Belohnungen basierend auf der Ähnlichkeit zwischen den Aktionen des Modells und Expertenaktionen aus dem SFT-Datensatz in einem schrittweisen Verfahren. Diese Überwachung liefert reichhaltigere Lernsignale, selbst wenn alle Durchläufe fehlerhaft sind, und fördert gleichzeitig flexibles Denken, das von Experten-Demonstrationen geleitet wird. Dadurch ermöglicht SRL kleinen Modellen, anspruchsvolle Probleme zu erlernen, die zuvor mit SFT oder RLVR nicht lernbar waren. Darüber hinaus erzielt die Initialisierung des Trainings mit SRL vor einer Verfeinerung mit RLVR die insgesamt beste Leistung. Über Reasoning-Benchmarks hinaus generalisiert SRL effektiv auf agentenbasierte Softwareentwicklungsaufgaben und etabliert sich so als robustes und vielseitiges Trainingsframework für reasoning-orientierte LLMs.
English
Large Language Models (LLMs) often struggle with problems that require
multi-step reasoning. For small-scale open-source models, Reinforcement
Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely
sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to
overfit long demonstrations through rigid token-by-token imitation. To address
this gap, we propose Supervised Reinforcement Learning (SRL), a framework that
reformulates problem solving as generating a sequence of logical "actions". SRL
trains the model to generate an internal reasoning monologue before committing
to each action. It provides smoother rewards based on the similarity between
the model's actions and expert actions extracted from the SFT dataset in a
step-wise manner. This supervision offers richer learning signals even when all
rollouts are incorrect, while encouraging flexible reasoning guided by expert
demonstrations. As a result, SRL enables small models to learn challenging
problems previously unlearnable by SFT or RLVR. Moreover, initializing training
with SRL before refining with RLVR yields the strongest overall performance.
Beyond reasoning benchmarks, SRL generalizes effectively to agentic software
engineering tasks, establishing it as a robust and versatile training framework
for reasoning-oriented LLMs.