自己蒸留ゼロ: 自己修正が二値報酬を密な教師信号に変える
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision
April 13, 2026
著者: Yinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora
cs.AI
要旨
現在の検証可能な設定における学習後手法は、主に2つのカテゴリに分類される。強化学習(RLVR)は二値報酬に依存し、広範な適用性と強力な性能を有するが、学習中に疎な監督しか提供しない。蒸留は、通常外部教師や高品質なデモンストレーションから得られる、密なトークンレベルの監督を提供する。しかし、このような監督データの収集はコストがかかるか、利用不可能な場合がある。本研究では、RLよりも大幅に訓練サンプル効率が高く、外部教師や高品質なデモンストレーションを必要としないSelf-Distillation Zero(SD-Zero)を提案する。SD-Zeroは単一のモデルに二つの役割を担わせる:初期応答を生成するGeneratorと、その応答と二値報酬を条件として改善された応答を生成するReviserである。その後、オン方策自己蒸留を行い、Reviserのトークン分布(Generatorの応答とその報酬を条件としたもの)を監督信号として用いて、ReviserをGeneratorに蒸留する。実質的に、SD-Zeroはモデルが二値報酬を密なトークンレベルの自己監督に変換するように訓練する。Qwen3-4B-InstructとOlmo-3-7B-Instructを用いた数学およびコード推論ベンチマークにおいて、SD-Zeroはベースモデルよりも少なくとも10%性能を向上させ、同一の問題セットと訓練サンプル予算下で、Rejection Fine-Tuning (RFT)、GRPO、Self-Distillation Fine-Tuning (SDFT)といった強力なベースラインを上回った。詳細なアブレーション研究により、提案アルゴリズムの2つの新規特性が明らかになった:(a) トークンレベル自己局在化:Reviserが報酬に基づいてGeneratorの応答内で修正が必要なキートークンを特定できること、(b) 反復的自己進化:回答を修正する能力の向上が、定期的な教師同期により生成性能へと蒸留されうることである。
English
Current post-training methods in verifiable settings fall into two categories. Reinforcement learning (RLVR) relies on binary rewards, which are broadly applicable and powerful, but provide only sparse supervision during training. Distillation provides dense token-level supervision, typically obtained from an external teacher or using high-quality demonstrations. Collecting such supervision can be costly or unavailable. We propose Self-Distillation Zero (SD-Zero), a method that is substantially more training sample-efficient than RL and does not require an external teacher or high-quality demonstrations. SD-Zero trains a single model to play two roles: a Generator, which produces an initial response, and a Reviser, which conditions on that response and its binary reward to produce an improved response. We then perform on-policy self-distillation to distill the reviser into the generator, using the reviser's token distributions conditioned on the generator's response and its reward as supervision. In effect, SD-Zero trains the model to transform binary rewards into dense token-level self-supervision. On math and code reasoning benchmarks with Qwen3-4B-Instruct and Olmo-3-7B-Instruct, SD-Zero improves performance by at least 10% over the base models and outperforms strong baselines, including Rejection Fine-Tuning (RFT), GRPO, and Self-Distillation Fine-Tuning (SDFT), under the same question set and training sample budget. Extensive ablation studies show two novel characteristics of our proposed algorithm: (a) token-level self-localization, where the reviser can identify the key tokens that need to be revised in the generator's response based on reward, and (b) iterative self-evolution, where the improving ability to revise answers can be distilled back into generation performance with regular teacher synchronization.