Auto-Distillazione Zero: L'Auto-Revisione Trasforma le Ricompense Binarie in Supervisione Densa
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision
April 13, 2026
Autori: Yinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora
cs.AI
Abstract
I metodi attuali di post-addestramento in contesti verificabili si dividono in due categorie. L'apprendimento per rinforzo (RLVR) si basa su ricompense binarie, che sono ampiamente applicabili e potenti, ma forniscono una supervisione solo sparsa durante l'addestramento. La distillazione fornisce una supervisione densa a livello di token, tipicamente ottenuta da un insegnante esterno o utilizzando dimostrazioni di alta qualità. Raccogliere tale supervisione può essere costoso o non fattibile. Proponiamo Self-Distillation Zero (SD-Zero), un metodo sostanzialmente più efficiente in termini di campioni di addestramento rispetto all'RL e che non richiede un insegnante esterno o dimostrazioni di alta qualità. SD-Zero addestra un singolo modello a ricoprire due ruoli: un Generatore, che produce una risposta iniziale, e un Revisore, che, condizionato da tale risposta e dalla sua ricompensa binaria, produce una risposta migliorata. Eseguiamo quindi una auto-distillazione on-policy per distillare il revisore nel generatore, utilizzando le distribuzioni di token del revisore - condizionate sulla risposta del generatore e sulla sua ricompensa - come supervisione. In effetti, SD-Zero addestra il modello a trasformare le ricompense binarie in un'auto-supervisione densa a livello di token. Su benchmark di ragionamento matematico e di codice con Qwen3-4B-Instruct e Olmo-3-7B-Instruct, SD-Zero migliora le prestazioni di almeno il 10% rispetto ai modelli base e supera baseline solide, tra cui Rejection Fine-Tuning (RFT), GRPO e Self-Distillation Fine-Tuning (SDFT), con lo stesso set di domande e budget di campioni di addestramento. Estesi studi di ablazione mostrano due caratteristiche innovative del nostro algoritmo proposto: (a) auto-localizzazione a livello di token, dove il revisore è in grado di identificare i token chiave che necessitano di revisione nella risposta del generatore sulla base della ricompensa, e (b) auto-evoluzione iterativa, dove la capacità migliorativa di revisione delle risposte può essere distillata nuovamente nelle prestazioni di generazione tramite una regolare sincronizzazione dell'insegnante.
English
Current post-training methods in verifiable settings fall into two categories. Reinforcement learning (RLVR) relies on binary rewards, which are broadly applicable and powerful, but provide only sparse supervision during training. Distillation provides dense token-level supervision, typically obtained from an external teacher or using high-quality demonstrations. Collecting such supervision can be costly or unavailable. We propose Self-Distillation Zero (SD-Zero), a method that is substantially more training sample-efficient than RL and does not require an external teacher or high-quality demonstrations. SD-Zero trains a single model to play two roles: a Generator, which produces an initial response, and a Reviser, which conditions on that response and its binary reward to produce an improved response. We then perform on-policy self-distillation to distill the reviser into the generator, using the reviser's token distributions conditioned on the generator's response and its reward as supervision. In effect, SD-Zero trains the model to transform binary rewards into dense token-level self-supervision. On math and code reasoning benchmarks with Qwen3-4B-Instruct and Olmo-3-7B-Instruct, SD-Zero improves performance by at least 10% over the base models and outperforms strong baselines, including Rejection Fine-Tuning (RFT), GRPO, and Self-Distillation Fine-Tuning (SDFT), under the same question set and training sample budget. Extensive ablation studies show two novel characteristics of our proposed algorithm: (a) token-level self-localization, where the reviser can identify the key tokens that need to be revised in the generator's response based on reward, and (b) iterative self-evolution, where the improving ability to revise answers can be distilled back into generation performance with regular teacher synchronization.