Supervised Reinforcement Learning: Van expert trajecten naar stap-voor-stap redeneren

Samenvatting

Grote Taalmodellen (LLM's) worstelen vaak met problemen die meerstaps redeneren vereisen. Voor kleinschalige open-source modellen faalt Reinforcement Learning met Verifieerbare Beloningen (RLVR) wanneer correcte oplossingen zelfs na vele pogingen zelden worden gegenereerd, terwijl Supervised Fine-Tuning (SFT) de neiging heeft om te overfitten op lange demonstraties door rigide imitatie token-voor-token. Om deze kloof te dichten, stellen we Supervised Reinforcement Learning (SRL) voor, een raamwerk dat probleemoplossing herformuleert als het genereren van een reeks logische "acties". SRL traint het model om een interne redeneermonoloog te genereren voordat het zich vastlegt op elke actie. Het biedt vloeiendere beloningen op basis van de gelijkenis tussen de acties van het model en expertacties die stapsgewijs uit de SFT-dataset worden gehaald. Deze supervisie biedt rijkere leer signalen, zelfs wanneer alle gegenereerde trajecten incorrect zijn, en moedigt tegelijkertijd flexibel redeneren aan onder begeleiding van expertdemonstraties. Hierdoor stelt SRL kleine modellen in staat om uitdagende problemen te leren die voorheen niet leerbaar waren met SFT of RLVR. Bovendien levert het initialiseren van de training met SRL, gevolgd door verfijning met RLVR, de sterkste algehele prestaties op. Naast redeneerbenchmarks generaliseert SRL effectief naar agent-gestuurde software-engineeringtaken, wat het vestigt als een robuust en veelzijdig trainingsraamwerk voor op redeneren gerichte LLM's.

English

Large Language Models (LLMs) often struggle with problems that require multi-step reasoning. For small-scale open-source models, Reinforcement Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to overfit long demonstrations through rigid token-by-token imitation. To address this gap, we propose Supervised Reinforcement Learning (SRL), a framework that reformulates problem solving as generating a sequence of logical "actions". SRL trains the model to generate an internal reasoning monologue before committing to each action. It provides smoother rewards based on the similarity between the model's actions and expert actions extracted from the SFT dataset in a step-wise manner. This supervision offers richer learning signals even when all rollouts are incorrect, while encouraging flexible reasoning guided by expert demonstrations. As a result, SRL enables small models to learn challenging problems previously unlearnable by SFT or RLVR. Moreover, initializing training with SRL before refining with RLVR yields the strongest overall performance. Beyond reasoning benchmarks, SRL generalizes effectively to agentic software engineering tasks, establishing it as a robust and versatile training framework for reasoning-oriented LLMs.

Supervised Reinforcement Learning: Van expert trajecten naar stap-voor-stap redeneren

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Samenvatting

Support