Apprendimento per Rinforzo Supervisionato: Dalle Traiettorie Esperte al Ragionamento Passo-Passo
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
October 29, 2025
Autori: Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee
cs.AI
Abstract
I grandi modelli linguistici (LLM) spesso incontrano difficoltà con problemi che richiedono ragionamenti a più fasi. Per i modelli open-source di piccole dimensioni, l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) fallisce quando soluzioni corrette vengono campionate raramente anche dopo molti tentativi, mentre la Messa a Punto Supervisionata (SFT) tende a sovradattarsi alle lunghe dimostrazioni attraverso una rigida imitazione token-per-token. Per colmare questa lacuna, proponiamo l'Apprendimento per Rinforzo Supervisionato (SRL), un quadro metodologico che riformula la risoluzione dei problemi come la generazione di una sequenza di "azioni" logiche. SRL addestra il modello a generare un monologo di ragionamento interno prima di impegnarsi in ogni azione. Fornisce ricompense più graduali basate sulla similarità tra le azioni del modello e le azioni esperte estratte dal dataset SFT in modo graduale, passo dopo passo. Questa supervisione offre segnali di apprendimento più ricchi anche quando tutti i tentativi di soluzione sono errati, incoraggiando al contempo un ragionamento flessibile guidato dalle dimostrazioni esperte. Di conseguenza, SRL consente a modelli di piccole dimensioni di apprendere problemi complessi precedentemente non apprendibili con SFT o RLVR. Inoltre, inizializzare l'addestramento con SRL prima di affinare con RLVR produce le prestazioni complessive più elevate. Oltre ai benchmark di ragionamento, SRL si generalizza efficacemente a compiti di ingegneria del software agentico, stabilendosi come un quadro di addestramento robusto e versatile per LLM orientati al ragionamento.
English
Large Language Models (LLMs) often struggle with problems that require
multi-step reasoning. For small-scale open-source models, Reinforcement
Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely
sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to
overfit long demonstrations through rigid token-by-token imitation. To address
this gap, we propose Supervised Reinforcement Learning (SRL), a framework that
reformulates problem solving as generating a sequence of logical "actions". SRL
trains the model to generate an internal reasoning monologue before committing
to each action. It provides smoother rewards based on the similarity between
the model's actions and expert actions extracted from the SFT dataset in a
step-wise manner. This supervision offers richer learning signals even when all
rollouts are incorrect, while encouraging flexible reasoning guided by expert
demonstrations. As a result, SRL enables small models to learn challenging
problems previously unlearnable by SFT or RLVR. Moreover, initializing training
with SRL before refining with RLVR yields the strongest overall performance.
Beyond reasoning benchmarks, SRL generalizes effectively to agentic software
engineering tasks, establishing it as a robust and versatile training framework
for reasoning-oriented LLMs.