Apprendimento per Rinforzo tramite Auto-Distillazione

Abstract

I grandi modelli linguistici vengono sempre più sottoposti a post-addestramento con apprendimento per rinforzo in domini verificabili come il codice e la matematica. Tuttavia, i metodi attuali per l'apprendimento per rinforzo con ricompense verificabili (RLVR) apprendono solo da una ricompensa scalare di risultato per tentativo, creando un severo collo di bottiglia nell'assegnazione del credito. Molti ambienti verificabili forniscono in realtà un feedback testuale ricco, come errori di runtime o valutazioni di un giudice, che spiegano il motivo per cui un tentativo è fallito. Formalizziamo questo scenario come apprendimento per rinforzo con feedback ricco e introduciamo l'Ottimizzazione della Politica con Auto-Distillazione (SDPO), che converte il feedback tokenizzato in un segnale di apprendimento denso senza alcun insegnante esterno o modello di ricompensa esplicito. SDPO tratta il modello corrente condizionato dal feedback come un auto-insegnante e distilla le sue previsioni sui token successivi, informate dal feedback, nuovamente nella politica. In questo modo, SDPO sfrutta la capacità del modello di identificare retrospettivamente i propri errori in contesto. In ambiti di ragionamento scientifico, uso di strumenti e programmazione competitiva su LiveCodeBench v6, SDPO migliora l'efficienza campionaria e l'accuratezza finale rispetto a solidi baseline RLVR. Notevolmente, SDPO supera anche i baseline in ambienti RLVR standard che restituiscono solo feedback scalare, utilizzando le esecuzioni riuscite come feedback implicito per i tentativi falliti. Infine, applicare SDPO a singole domande durante il test accelera la scoperta in compiti difficili con ricompensa binaria, raggiungendo la stessa probabilità di scoperta del campionamento best-of-k o di conversazioni multi-turno con 3 volte meno tentativi.

English

Large language models are increasingly post-trained with reinforcement learning in verifiable domains such as code and math. Yet, current methods for reinforcement learning with verifiable rewards (RLVR) learn only from a scalar outcome reward per attempt, creating a severe credit-assignment bottleneck. Many verifiable environments actually provide rich textual feedback, such as runtime errors or judge evaluations, that explain why an attempt failed. We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO), which converts tokenized feedback into a dense learning signal without any external teacher or explicit reward model. SDPO treats the current model conditioned on feedback as a self-teacher and distills its feedback-informed next-token predictions back into the policy. In this way, SDPO leverages the model's ability to retrospectively identify its own mistakes in-context. Across scientific reasoning, tool use, and competitive programming on LiveCodeBench v6, SDPO improves sample efficiency and final accuracy over strong RLVR baselines. Notably, SDPO also outperforms baselines in standard RLVR environments that only return scalar feedback by using successful rollouts as implicit feedback for failed attempts. Finally, applying SDPO to individual questions at test time accelerates discovery on difficult binary-reward tasks, achieving the same discovery probability as best-of-k sampling or multi-turn conversations with 3x fewer attempts.

Apprendimento per Rinforzo tramite Auto-Distillazione

Reinforcement Learning via Self-Distillation

Abstract

Support