Les multiples facettes de la distillation on-policy : écueils, mécanismes et remèdes

Résumé

La distillation sur politique (OPD) et l'auto-distillation sur politique (OPSD) sont devenues des méthodes prometteuses de post-entraînement pour les grands modèles de langage, offrant une supervision dense au niveau des tokens sur des trajectoires échantillonnées selon la propre politique du modèle. Cependant, les résultats existants concernant leur efficacité restent mitigés : bien que l'OP(S)D ait montré des avantages dans l'internalisation des prompts système et des connaissances, des études récentes rapportent également de l'instabilité et une dégradation. Dans ce travail, nous présentons une étude empirique complète pour déterminer quand l'OPD et l'OPSD fonctionnent, quand elles échouent, et pourquoi. Nous constatons que l'OPD en raisonnement mathématique est très sensible au choix de l'enseignant et à la formulation de la perte, tandis que l'OPSD échoue dans les configurations testées en raison de l'absence, au moment du test, d'information privilégiée (PI) spécifique à l'instance. En revanche, l'OPSD est efficace lorsque la PI représente une règle latente partagée, comme un prompt système ou une préférence d'alignement. Nous identifions trois mécanismes d'échec : (1) un décalage de distribution entre l'enseignant et l'étudiant causé par le conditionnement sur des préfixes générés par l'étudiant, (2) une instabilité d'optimisation due aux gradients KL inverses TopK biaisés, et (3) une limitation propre à l'OPSD où l'étudiant apprend une politique sans PI qui agrège des enseignants conditionnés par la PI, ce qui est insuffisant lorsque la PI est spécifique à l'instance. Nous montrons en outre que les objectifs TopK avec arrêt de gradient, les enseignants adaptés par RLVR, et les étudiants stabilisés par SFT atténuent ces échecs.

English

On-policy distillation (OPD) and on-policy self-distillation (OPSD) have emerged as promising post-training methods for large language models, offering dense token-level supervision on trajectories sampled from the model's own policy. However, existing results on their effectiveness remain mixed: while OP(S)D has shown promise in system prompt and knowledge internalization, recent studies also report instability and degradation. In this work, we present a comprehensive empirical study of when OPD and OPSD work, when they fail, and why. We find that OPD on mathematical reasoning is highly sensitive to teacher choice and loss formulation, whereas OPSD fails in our tested settings due to test-time absence of instance-specific privileged information (PI). In contrast, OPSD is effective when PI represents a shared latent rule, such as a system prompt or alignment preference. We identify three failure mechanisms: (1) distribution mismatch between teacher and student caused by conditioning on student-generated prefixes, (2) optimization instability from biased TopK reverse-KL gradients, and (3) an OPSD-specific limitation where the student learns a PI-free policy that aggregates PI-conditioned teachers, which is insufficient when PI is instance-specific. We further show that stop-gradient TopK objectives, RLVR-adapted teachers, and SFT-stabilized students mitigate these failures.

Les multiples facettes de la distillation on-policy : écueils, mécanismes et remèdes

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

Résumé

Support