Die vielen Gesichter der On-Policy-Destillation: Fallstricke, Mechanismen und Lösungen

Zusammenfassung

On-Policy-Destillation (OPD) und On-Policy-Selbstdestillation (OPSD) haben sich als vielversprechende Post-Training-Methoden für große Sprachmodelle etabliert, die eine dichte Token-Ebene-Überwachung auf Trajektorien bieten, die aus der eigenen Policy des Modells stammen. Allerdings bleiben die bisherigen Ergebnisse zu ihrer Wirksamkeit uneinheitlich: Während OP(S)D bei der Internalisierung von System-Prompts und Wissen vielversprechend war, berichten neuere Studien auch von Instabilität und Degradation. In dieser Arbeit präsentieren wir eine umfassende empirische Studie darüber, wann OPD und OPSD funktionieren, wann sie versagen und warum. Wir stellen fest, dass OPD bei mathematischem Denken sehr empfindlich auf die Wahl des Lehrers und die Verlustformulierung reagiert, während OPSD in unseren getesteten Umgebungen aufgrund des Fehlens instanzspezifischer privilegierter Informationen (PI) zur Testzeit versagt. Im Gegensatz dazu ist OPSD effektiv, wenn PI eine gemeinsame latente Regel repräsentiert, wie etwa einen System-Prompt oder eine Ausrichtungspräferenz. Wir identifizieren drei Fehlermechanismen: (1) eine Verteilungsdiskrepanz zwischen Lehrer und Schüler durch Konditionierung auf schülergenerierte Präfixe, (2) Optimierungsinstabilität durch verzerrte TopK-Reverse-KL-Gradienten und (3) eine OPSD-spezifische Einschränkung, bei der der Schüler eine PI-freie Policy lernt, die PI-konditionierte Lehrer aggregiert, was bei instanzspezifischem PI unzureichend ist. Wir zeigen weiterhin, dass Stop-Gradient-TopK-Ziele, RLVR-angepasste Lehrer und SFT-stabilisierte Schüler diese Fehler abschwächen.

English

On-policy distillation (OPD) and on-policy self-distillation (OPSD) have emerged as promising post-training methods for large language models, offering dense token-level supervision on trajectories sampled from the model's own policy. However, existing results on their effectiveness remain mixed: while OP(S)D has shown promise in system prompt and knowledge internalization, recent studies also report instability and degradation. In this work, we present a comprehensive empirical study of when OPD and OPSD work, when they fail, and why. We find that OPD on mathematical reasoning is highly sensitive to teacher choice and loss formulation, whereas OPSD fails in our tested settings due to test-time absence of instance-specific privileged information (PI). In contrast, OPSD is effective when PI represents a shared latent rule, such as a system prompt or alignment preference. We identify three failure mechanisms: (1) distribution mismatch between teacher and student caused by conditioning on student-generated prefixes, (2) optimization instability from biased TopK reverse-KL gradients, and (3) an OPSD-specific limitation where the student learns a PI-free policy that aggregates PI-conditioned teachers, which is insufficient when PI is instance-specific. We further show that stop-gradient TopK objectives, RLVR-adapted teachers, and SFT-stabilized students mitigate these failures.

Die vielen Gesichter der On-Policy-Destillation: Fallstricke, Mechanismen und Lösungen

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

Zusammenfassung

Support