Auto-Distillation Zéro : L'Auto-Révision Transforme les Récompenses Binaires en Supervision Dense
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision
April 13, 2026
Auteurs: Yinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora
cs.AI
Résumé
Les méthodes actuelles de post-formation en contexte vérifiable se divisent en deux catégories. L'apprentissage par renforcement (RLVR) repose sur des récompenses binaires, qui sont largement applicables et puissantes, mais ne fournissent qu'une supervision parcimonieuse pendant l'entraînement. La distillation offre une supervision dense au niveau des tokens, généralement obtenue auprès d'un enseignant externe ou en utilisant des démonstrations de haute qualité. La collecte d'une telle supervision peut être coûteuse ou indisponible. Nous proposons l'Auto-Distillation Zéro (SD-Zero), une méthode nettement plus efficace en termes d'échantillons d'entraînement que le RL et qui ne nécessite ni enseignant externe ni démonstrations de haute qualité. SD-Zero entraîne un modèle unique à jouer deux rôles : un Générateur, qui produit une réponse initiale, et un Réviseur, qui se base sur cette réponse et sa récompense binaire pour produire une réponse améliorée. Nous effectuons ensuite une auto-distillation sur la politique pour distiller le réviseur dans le générateur, en utilisant les distributions de tokens du réviseur conditionnées par la réponse du générateur et sa récompense comme supervision. En substance, SD-Zero entraîne le modèle à transformer des récompenses binaires en une auto-supervision dense au niveau des tokens. Sur des benchmarks de raisonnement mathématique et en programmation avec Qwen3-4B-Instruct et Olmo-3-7B-Instruct, SD-Zero améliore les performances d'au moins 10 % par rapport aux modèles de base et surpasse des bases de référence solides, incluant le Réglage Fin par Rejet (RFT), GRPO et le Réglage Fin par Auto-Distillation (SDFT), avec le même ensemble de questions et le même budget d'échantillons d'entraînement. Des études d'ablation approfondies révèlent deux caractéristiques novatrices de notre algorithme proposé : (a) l'auto-localisation au niveau des tokens, où le réviseur peut identifier les tokens clés nécessitant une révision dans la réponse du générateur en se basant sur la récompense, et (b) l'auto-évolution itérative, où la capacité croissante à réviser les réponses peut être distillée dans les performances de génération grâce à une synchronisation régulière de l'enseignant.
English
Current post-training methods in verifiable settings fall into two categories. Reinforcement learning (RLVR) relies on binary rewards, which are broadly applicable and powerful, but provide only sparse supervision during training. Distillation provides dense token-level supervision, typically obtained from an external teacher or using high-quality demonstrations. Collecting such supervision can be costly or unavailable. We propose Self-Distillation Zero (SD-Zero), a method that is substantially more training sample-efficient than RL and does not require an external teacher or high-quality demonstrations. SD-Zero trains a single model to play two roles: a Generator, which produces an initial response, and a Reviser, which conditions on that response and its binary reward to produce an improved response. We then perform on-policy self-distillation to distill the reviser into the generator, using the reviser's token distributions conditioned on the generator's response and its reward as supervision. In effect, SD-Zero trains the model to transform binary rewards into dense token-level self-supervision. On math and code reasoning benchmarks with Qwen3-4B-Instruct and Olmo-3-7B-Instruct, SD-Zero improves performance by at least 10% over the base models and outperforms strong baselines, including Rejection Fine-Tuning (RFT), GRPO, and Self-Distillation Fine-Tuning (SDFT), under the same question set and training sample budget. Extensive ablation studies show two novel characteristics of our proposed algorithm: (a) token-level self-localization, where the reviser can identify the key tokens that need to be revised in the generator's response based on reward, and (b) iterative self-evolution, where the improving ability to revise answers can be distilled back into generation performance with regular teacher synchronization.