Auto-Distilação Zero: A Auto-Revisão Transforma Recompensas Binárias em Supervisão Densa

Resumo

Os métodos atuais de pós-treinamento em contextos verificáveis dividem-se em duas categorias. O aprendizado por reforço (RLVR) baseia-se em recompensas binárias, que são amplamente aplicáveis e poderosas, mas fornecem apenas supervisão esparsa durante o treino. A destilação fornece supervisão densa a nível de token, tipicamente obtida de um professor externo ou usando demonstrações de alta qualidade. Recolher tal supervisão pode ser dispendioso ou indisponível. Propomos o Self-Distillation Zero (SD-Zero), um método substancialmente mais eficiente em termos de amostras de treino do que o RL e que não requer um professor externo ou demonstrações de alta qualidade. O SD-Zero treina um único modelo para desempenhar dois papéis: um Gerador, que produz uma resposta inicial, e um Revisor, que se condiciona a essa resposta e à sua recompensa binária para produzir uma resposta melhorada. Em seguida, realizamos auto-destilação on-policy para destilar o revisor no gerador, usando as distribuições de token do revisor condicionadas à resposta do gerador e à sua recompensa como supervisão. Efetivamente, o SD-Zero treina o modelo para transformar recompensas binárias em auto-supervisão densa a nível de token. Em benchmarks de raciocínio matemático e de código com Qwen3-4B-Instruct e Olmo-3-7B-Instruct, o SD-Zero melhora o desempenho em pelo menos 10% em relação aos modelos base e supera linhas de base fortes, incluindo Rejection Fine-Tuning (RFT), GRPO e Self-Distillation Fine-Tuning (SDFT), sob o mesmo conjunto de perguntas e orçamento de amostras de treino. Estudos abrangentes de ablação mostram duas características novas do nosso algoritmo proposto: (a) auto-localização a nível de token, onde o revisor consegue identificar os tokens-chave que precisam de ser revistos na resposta do gerador com base na recompensa, e (b) auto-evolução iterativa, onde a capacidade de melhorar a revisão de respostas pode ser destilada de volta para o desempenho de geração com sincronização regular do professor.

English

Current post-training methods in verifiable settings fall into two categories. Reinforcement learning (RLVR) relies on binary rewards, which are broadly applicable and powerful, but provide only sparse supervision during training. Distillation provides dense token-level supervision, typically obtained from an external teacher or using high-quality demonstrations. Collecting such supervision can be costly or unavailable. We propose Self-Distillation Zero (SD-Zero), a method that is substantially more training sample-efficient than RL and does not require an external teacher or high-quality demonstrations. SD-Zero trains a single model to play two roles: a Generator, which produces an initial response, and a Reviser, which conditions on that response and its binary reward to produce an improved response. We then perform on-policy self-distillation to distill the reviser into the generator, using the reviser's token distributions conditioned on the generator's response and its reward as supervision. In effect, SD-Zero trains the model to transform binary rewards into dense token-level self-supervision. On math and code reasoning benchmarks with Qwen3-4B-Instruct and Olmo-3-7B-Instruct, SD-Zero improves performance by at least 10% over the base models and outperforms strong baselines, including Rejection Fine-Tuning (RFT), GRPO, and Self-Distillation Fine-Tuning (SDFT), under the same question set and training sample budget. Extensive ablation studies show two novel characteristics of our proposed algorithm: (a) token-level self-localization, where the reviser can identify the key tokens that need to be revised in the generator's response based on reward, and (b) iterative self-evolution, where the improving ability to revise answers can be distilled back into generation performance with regular teacher synchronization.

Auto-Distilação Zero: A Auto-Revisão Transforma Recompensas Binárias em Supervisão Densa

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Resumo

Support