Selbst-Distillation Null: Selbstrevision verwandelt binäre Belohnungen in dichte Überwachung
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision
April 13, 2026
Autoren: Yinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora
cs.AI
Zusammenfassung
Aktuelle Methoden des Post-Trainings in verifizierbaren Umgebungen lassen sich in zwei Kategorien einteilen. Reinforcement Learning (RLVR) stützt sich auf binäre Belohnungssignale, die breit anwendbar und leistungsfähig sind, aber nur eine spärliche Überwachung während des Trainings bieten. Distillation bietet eine dichte Überwachung auf Token-Ebene, die typischerweise von einem externen Lehrer oder durch hochwertige Demonstrationen gewonnen wird. Die Beschaffung einer solchen Überwachung kann jedoch kostspieligig oder nicht verfügbar sein. Wir schlagen Self-Distillation Zero (SD-Zero) vor, eine Methode, die deutlich trainingsdaten-effizienter als RL ist und keinen externen Lehrer oder hochwertige Demonstrationen benötigt. SD-Zero trainiert ein einzelnes Modell für zwei Rollen: einen Generator, der eine erste Antwort erzeugt, und einen Reviser, der auf Basis dieser Antwort und ihres binären Belohnungssignals eine verbesserte Antwort generiert. Anschließend führen wir On-Policy-Self-Distillation durch, um den Reviser in den Generator zu destillieren, wobei wir die Token-Verteilungen des Revisers, bedingt auf die Antwort des Generators und deren Belohnung, als Überwachung verwenden. Im Effekt trainiert SD-Zero das Modell dazu, binäre Belohnungssignale in dichte Selbstüberwachung auf Token-Ebene umzuwandeln. Auf Mathematik- und Code-Reasoning-Benchmarks mit Qwen3-4B-Instruct und Olmo-3-7B-Instruct steigert SD-Zero die Leistung um mindestens 10 % gegenüber den Basismodellen und übertrifft starke Baseline-Methoden, einschließlich Rejection Fine-Tuning (RFT), GRPO und Self-Distillation Fine-Tuning (SDFT), unter Verwendung desselben Fragesatzes und gleichen Trainingsdaten-Budgets. Umfangreiche Ablationsstudien zeigen zwei neuartige Charakteristika unseres vorgeschlagenen Algorithmus: (a) Selbstlokalisierung auf Token-Ebene, bei der der Reviser anhand des Belohnungssignals die Schlüsseltoken identifizieren kann, die in der Antwort des Generators überarbeitet werden müssen, und (b) iterative Selbstevolution, bei der die verbesserte Fähigkeit, Antworten zu überarbeiten, durch regelmäßige Synchronisation des Lehrers zurück in die Generierungsleistung destilliert werden kann.
English
Current post-training methods in verifiable settings fall into two categories. Reinforcement learning (RLVR) relies on binary rewards, which are broadly applicable and powerful, but provide only sparse supervision during training. Distillation provides dense token-level supervision, typically obtained from an external teacher or using high-quality demonstrations. Collecting such supervision can be costly or unavailable. We propose Self-Distillation Zero (SD-Zero), a method that is substantially more training sample-efficient than RL and does not require an external teacher or high-quality demonstrations. SD-Zero trains a single model to play two roles: a Generator, which produces an initial response, and a Reviser, which conditions on that response and its binary reward to produce an improved response. We then perform on-policy self-distillation to distill the reviser into the generator, using the reviser's token distributions conditioned on the generator's response and its reward as supervision. In effect, SD-Zero trains the model to transform binary rewards into dense token-level self-supervision. On math and code reasoning benchmarks with Qwen3-4B-Instruct and Olmo-3-7B-Instruct, SD-Zero improves performance by at least 10% over the base models and outperforms strong baselines, including Rejection Fine-Tuning (RFT), GRPO, and Self-Distillation Fine-Tuning (SDFT), under the same question set and training sample budget. Extensive ablation studies show two novel characteristics of our proposed algorithm: (a) token-level self-localization, where the reviser can identify the key tokens that need to be revised in the generator's response based on reward, and (b) iterative self-evolution, where the improving ability to revise answers can be distilled back into generation performance with regular teacher synchronization.