Las múltiples caras de la destilación on-policy: escollos, mecanismos y correcciones
The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes
May 11, 2026
Autores: Siqi Zhu, Xuyan Ye, Hongyu Lu, Weiye Shi, Ge Liu
cs.AI
Resumen
La destilación on-policy (OPD) y la destilación on-policy autodirigida (OPSD) han surgido como métodos prometedores de post-entrenamiento para modelos de lenguaje grandes, ofreciendo una supervisión densa a nivel de token en trayectorias muestreadas de la propia política del modelo. Sin embargo, los resultados existentes sobre su efectividad siguen siendo mixtos: mientras que la OP(S)D ha demostrado ser prometedora en la internalización de prompts de sistema y conocimiento, estudios recientes también reportan inestabilidad y degradación. En este trabajo, presentamos un estudio empírico exhaustivo sobre cuándo funcionan la OPD y la OPSD, cuándo fallan y por qué. Encontramos que la OPD en razonamiento matemático es altamente sensible a la elección del maestro y a la formulación de la pérdida, mientras que la OPSD falla en nuestros entornos de prueba debido a la ausencia en tiempo de prueba de información privilegiada (PI) específica de la instancia. En contraste, la OPSD es efectiva cuando la PI representa una regla latente compartida, como un prompt de sistema o una preferencia de alineación. Identificamos tres mecanismos de fallo: (1) desajuste de distribución entre maestro y estudiante causado por el condicionamiento en prefijos generados por el estudiante, (2) inestabilidad en la optimización debida a gradientes KL inversos sesgados de TopK, y (3) una limitación específica de OPSD donde el estudiante aprende una política libre de PI que agrega maestros condicionados por PI, lo cual es insuficiente cuando la PI es específica de la instancia. Además, mostramos que los objetivos TopK con gradiente detenido, maestros adaptados con RLVR y estudiantes estabilizados con SFT mitigan estos fallos.
English
On-policy distillation (OPD) and on-policy self-distillation (OPSD) have emerged as promising post-training methods for large language models, offering dense token-level supervision on trajectories sampled from the model's own policy. However, existing results on their effectiveness remain mixed: while OP(S)D has shown promise in system prompt and knowledge internalization, recent studies also report instability and degradation. In this work, we present a comprehensive empirical study of when OPD and OPSD work, when they fail, and why. We find that OPD on mathematical reasoning is highly sensitive to teacher choice and loss formulation, whereas OPSD fails in our tested settings due to test-time absence of instance-specific privileged information (PI). In contrast, OPSD is effective when PI represents a shared latent rule, such as a system prompt or alignment preference. We identify three failure mechanisms: (1) distribution mismatch between teacher and student caused by conditioning on student-generated prefixes, (2) optimization instability from biased TopK reverse-KL gradients, and (3) an OPSD-specific limitation where the student learns a PI-free policy that aggregates PI-conditioned teachers, which is insufficient when PI is instance-specific. We further show that stop-gradient TopK objectives, RLVR-adapted teachers, and SFT-stabilized students mitigate these failures.