ChatPaper.aiChatPaper

AutoDistilación Cero: La Autorrevisión Convierte Recompensas Binarias en Supervisión Densa

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

April 13, 2026
Autores: Yinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora
cs.AI

Resumen

Los métodos actuales de posentrenamiento en entornos verificables se dividen en dos categorías. El aprendizaje por refuerzo (RLVR) se basa en recompensas binarias, que son ampliamente aplicables y potentes, pero proporcionan una supervisión escasa durante el entrenamiento. La destilación proporciona una supervisión densa a nivel de token, que normalmente se obtiene de un profesor externo o mediante demostraciones de alta calidad. Recopilar dicha supervisión puede ser costoso o no estar disponible. Proponemos Self-Distillation Zero (SD-Zero), un método sustancialmente más eficiente en muestras de entrenamiento que el RL y que no requiere un profesor externo ni demostraciones de alta calidad. SD-Zero entrena un único modelo para desempeñar dos roles: un Generador, que produce una respuesta inicial, y un Revisor, que se condiciona a esa respuesta y su recompensa binaria para producir una respuesta mejorada. Luego realizamos una auto-destilación on-policy para destilar el revisor en el generador, utilizando las distribuciones de tokens del revisor condicionadas a la respuesta del generador y su recompensa como supervisión. En efecto, SD-Zero entrena al modelo para transformar recompensas binarias en una auto-supervisión densa a nivel de token. En benchmarks de razonamiento matemático y de código con Qwen3-4B-Instruct y Olmo-3-7B-Instruct, SD-Zero mejora el rendimiento al menos un 10% respecto a los modelos base y supera a líneas base sólidas, incluyendo Rejection Fine-Tuning (RFT), GRPO y Self-Distillation Fine-Tuning (SDFT), bajo el mismo conjunto de preguntas y presupuesto de muestras de entrenamiento. Estudios de ablación extensos muestran dos características novedosas de nuestro algoritmo propuesto: (a) auto-localización a nivel de token, donde el revisor puede identificar los tokens clave que necesitan ser revisados en la respuesta del generador basándose en la recompensa, y (b) auto-evolución iterativa, donde la capacidad de mejora para revisar respuestas puede ser destilada de nuevo en el rendimiento de generación con una sincronización regular del profesor.
English
Current post-training methods in verifiable settings fall into two categories. Reinforcement learning (RLVR) relies on binary rewards, which are broadly applicable and powerful, but provide only sparse supervision during training. Distillation provides dense token-level supervision, typically obtained from an external teacher or using high-quality demonstrations. Collecting such supervision can be costly or unavailable. We propose Self-Distillation Zero (SD-Zero), a method that is substantially more training sample-efficient than RL and does not require an external teacher or high-quality demonstrations. SD-Zero trains a single model to play two roles: a Generator, which produces an initial response, and a Reviser, which conditions on that response and its binary reward to produce an improved response. We then perform on-policy self-distillation to distill the reviser into the generator, using the reviser's token distributions conditioned on the generator's response and its reward as supervision. In effect, SD-Zero trains the model to transform binary rewards into dense token-level self-supervision. On math and code reasoning benchmarks with Qwen3-4B-Instruct and Olmo-3-7B-Instruct, SD-Zero improves performance by at least 10% over the base models and outperforms strong baselines, including Rejection Fine-Tuning (RFT), GRPO, and Self-Distillation Fine-Tuning (SDFT), under the same question set and training sample budget. Extensive ablation studies show two novel characteristics of our proposed algorithm: (a) token-level self-localization, where the reviser can identify the key tokens that need to be revised in the generator's response based on reward, and (b) iterative self-evolution, where the improving ability to revise answers can be distilled back into generation performance with regular teacher synchronization.
PDF52April 17, 2026