Exposición Adaptativa del Profesor para la Autodestilación en el Razonamiento de LLM

Resumen

La auto-destilación on-policy se ha convertido en una receta poderosa para el razonamiento en LLM, donde un profesor privilegiado supervisa los propios rollouts del estudiante mientras condiciona la solución de referencia. Sin embargo, una elección de diseño compartida por casi todos estos métodos ha permanecido incuestionada: el profesor siempre ve el razonamiento de referencia completo. Sostenemos que esta omisión en sí misma es parte del problema e identificamos un desajuste de exposición del lado del profesor: cuando el profesor condiciona un razonamiento que excede con creces la competencia actual del estudiante, los objetivos de token resultantes se vuelven demasiado fuertes para ser absorbidos. Un barrido controlado de exposición fija hace esto concreto en dos frentes: 1) la exposición completa no es consistentemente la mejor opción, y 2) el desajuste estudiante-profesor crece monótonamente a medida que el profesor ve más razonamiento privilegiado. Esto motiva tratar la exposición del profesor no como un hiperparámetro fijo, sino como una variable de control aprendible durante el entrenamiento. Por lo tanto, proponemos Exposición Adaptativa del Profesor para Auto-Destilación (ATESD). ATESD modela la proporción de revelación con un controlador de política Beta ligero condicionado a estadísticas compactas del estado de entrenamiento, y utiliza una exposición muestreada para una ventana corta de actualizaciones del estudiante. Para que este controlador de exposición sea aprendible, lo optimizamos con una recompensa de progreso de aprendizaje descontada que puntúa cada decisión retenida según su efecto en la mejora futura del estudiante, en lugar de su cambio inmediato en la pérdida, abordando la asignación de crédito retardada inducida por la destilación on-policy. Los experimentos en AIME 24, AIME 25 y HMMT 25 con Qwen3-{1.7B, 4B, 8B} muestran que ATESD supera consistentemente a los modelos base competitivos de auto-destilación y RL, mejorando sobre OPSD en +0.95, +2.05 y +2.33 puntos Average@12 respectivamente, y estableciendo la exposición adaptativa del profesor como un nuevo eje efectivo para la auto-destilación de razonamiento.

English

On-policy self-distillation has become a strong recipe for LLM reasoning, where a privileged teacher supervises the student's own rollouts while conditioning on the reference solution. A design choice shared by nearly all such methods, however, has gone unquestioned: the teacher always sees the full reference reasoning. We argue that this default itself is part of the problem and identify a teacher-side exposure mismatch: when the teacher conditions on reasoning far beyond the student's current competence, the resulting token targets become too strong to absorb. A controlled fixed-exposure sweep makes this concrete on two fronts: 1) full exposure is not reliably the best choice, and 2) student-teacher mismatch grows monotonically as the teacher sees more privileged reasoning. This motivates treating teacher exposure not as a fixed hyperparameter but as a learnable training-time control variable. We therefore propose Adaptive Teacher Exposure for Self-Distillation (ATESD). ATESD models the reveal ratio with a lightweight Beta-policy controller conditioned on compact training-state statistics, and uses one sampled exposure for a short hold window of student updates. To make this exposure controller learnable, we optimize it with a discounted learning-progress reward that scores each held decision by its effect on the student's future improvement rather than its immediate loss change, addressing the delayed credit assignment induced by on-policy distillation. Experiments on AIME 24, AIME 25, and HMMT 25 across Qwen3-{1.7B, 4B, 8B} show that ATESD consistently outperforms competitive self-distillation and RL baselines, improving over OPSD by +0.95, +2.05, and +2.33 Average@12 points respectively, and establishing adaptive teacher exposure as an effective new axis for reasoning self-distillation.