Zelfdistillatie Nul: Zelfrevisie Verandert Binaire Beloningen in Dichte Supervisie
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision
April 13, 2026
Auteurs: Yinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora
cs.AI
Samenvatting
Huidige methoden voor post-training in verificeerbare omgevingen vallen uiteen in twee categorieën. Reinforcement learning (RLVR) maakt gebruik van binaire beloningen, die breed toepasbaar en krachtig zijn, maar slechts spaarzame supervisie bieden tijdens de training. Distillatie biedt dense supervisie op tokenniveau, die typisch verkregen wordt van een externe teacher of met behulp van hoogwaardige demonstraties. Het verzamelen van dergelijke supervisie kan kostbaar zijn of niet beschikbaar. Wij stellen Self-Distillation Zero (SD-Zero) voor, een methode die aanzienlijk trainingssample-efficiënter is dan RL en geen externe teacher of hoogwaardige demonstraties vereist. SD-Zero traint één enkel model om twee rollen te vervullen: een Generator, die een initieel antwoord produceert, en een Reviser, die conditioneert op dat antwoord en de binaire beloning om een verbeterd antwoord te produceren. Vervolgens voeren we on-policy zelfdistillatie uit om de reviser in de generator te distilleren, waarbij we de tokenverdelingen van de reviser, geconditioneerd op het antwoord van de generator en diens beloning, als supervisie gebruiken. In feite traint SD-Zero het model om binaire beloningen om te zetten in dense zelfsupervisie op tokenniveau. Op wiskunde- en codeerredeneerbenchmarks met Qwen3-4B-Instruct en Olmo-3-7B-Instruct verbetert SD-Zero de prestaties met ten minste 10% ten opzichte van de basismodellen en presteert het beter dan sterke baseline-methoden, waaronder Rejection Fine-Tuning (RFT), GRPO en Self-Distillation Fine-Tuning (SDFT), onder dezelfde vragenverzameling en trainingssample-begroting. Uitgebreide ablatiestudies tonen twee nieuwe kenmerken van ons voorgestelde algoritme aan: (a) zelflokalisatie op tokenniveau, waarbij de reviser de sleuteltokens kan identificeren die moeten worden herzien in het antwoord van de generator op basis van de beloning, en (b) iteratieve zelftoe-eigening, waarbij de verbeterde vaardigheid om antwoorden te reviseren terug gedistilleerd kan worden in de generatieprestatie met regelmatige synchronisatie van de teacher.
English
Current post-training methods in verifiable settings fall into two categories. Reinforcement learning (RLVR) relies on binary rewards, which are broadly applicable and powerful, but provide only sparse supervision during training. Distillation provides dense token-level supervision, typically obtained from an external teacher or using high-quality demonstrations. Collecting such supervision can be costly or unavailable. We propose Self-Distillation Zero (SD-Zero), a method that is substantially more training sample-efficient than RL and does not require an external teacher or high-quality demonstrations. SD-Zero trains a single model to play two roles: a Generator, which produces an initial response, and a Reviser, which conditions on that response and its binary reward to produce an improved response. We then perform on-policy self-distillation to distill the reviser into the generator, using the reviser's token distributions conditioned on the generator's response and its reward as supervision. In effect, SD-Zero trains the model to transform binary rewards into dense token-level self-supervision. On math and code reasoning benchmarks with Qwen3-4B-Instruct and Olmo-3-7B-Instruct, SD-Zero improves performance by at least 10% over the base models and outperforms strong baselines, including Rejection Fine-Tuning (RFT), GRPO, and Self-Distillation Fine-Tuning (SDFT), under the same question set and training sample budget. Extensive ablation studies show two novel characteristics of our proposed algorithm: (a) token-level self-localization, where the reviser can identify the key tokens that need to be revised in the generator's response based on reward, and (b) iterative self-evolution, where the improving ability to revise answers can be distilled back into generation performance with regular teacher synchronization.