Neubewertung der On-Policy-Destillation großer Sprachmodelle: Phänomenologie, Mechanismus und Rezept

Zusammenfassung

On-policy-Distillation (OPD) hat sich zu einer Kernmethode im Post-Training großer Sprachmodelle entwickelt, doch ihre Trainingsdynamik ist nach wie vor wenig verstanden. Diese Arbeit bietet eine systematische Untersuchung der Dynamiken und Mechanismen von OPD. Wir identifizieren zunächst zwei Bedingungen, die darüber entscheiden, ob OPD erfolgreich ist oder scheitert: (i) Student und Teacher müssen kompatible Denkmuster aufweisen; und (ii) selbst bei konsistenten Denkmustern und höheren Scores muss der Teacher tatsächlich neue Fähigkeiten bieten, die über das hinausgehen, was der Student während des Trainings gesehen hat. Wir validieren diese Erkenntnisse durch Weak-to-Strong-Reverse-Distillation und zeigen, dass Teacher-Modelle der gleichen Familie (1,5B und 7B) aus der Perspektive des Studenten verteilungsmäßig ununterscheidbar sind. Bei der Untersuchung des tokenweisen Mechanismus zeigen wir, dass erfolgreiche OPD durch eine progressive Angleichung bei Tokens mit hoher Wahrscheinlichkeit in vom Studenten besuchten Zuständen charakterisiert ist – eine kleine, gemeinsame Token-Menge, die den Großteil der Wahrscheinlichkeitsmasse (97 %–99 %) konzentriert. Darüber hinaus schlagen wir zwei praktische Strategien vor, um fehlgeschlagene OPD zu korrigieren: Off-Policy-Cold-Start und teacher-abgestimmte Prompt-Auswahl. Abschließend zeigen wir, dass der scheinbar kostenlose Vorteil von OPD – dichte tokenweise Belohnung – einen Preis hat, und stellen die Frage, ob OPD auf Distillation mit langem Zeithorizont skaliert werden kann.

English

On-policy distillation (OPD) has become a core technique in the post-training of large language models, yet its training dynamics remain poorly understood. This paper provides a systematic investigation of OPD dynamics and mechanisms. We first identify that two conditions govern whether OPD succeeds or fails: (i) the student and teacher should share compatible thinking patterns; and (ii) even with consistent thinking patterns and higher scores, the teacher must offer genuinely new capabilities beyond what the student has seen during training. We validate these findings through weak-to-strong reverse distillation, showing that same-family 1.5B and 7B teachers are distributionally indistinguishable from the student's perspective. Probing into the token-level mechanism, we show that successful OPD is characterized by progressive alignment on high-probability tokens at student-visited states, a small shared token set that concentrates most of the probability mass (97%-99%). We further propose two practical strategies to recover failing OPD: off-policy cold start and teacher-aligned prompt selection. Finally, we show that OPD's apparent free lunch of dense token-level reward comes at a cost, raising the question of whether OPD can scale to long-horizon distillation.

Neubewertung der On-Policy-Destillation großer Sprachmodelle: Phänomenologie, Mechanismus und Rezept

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Zusammenfassung

Support