Repenser la distillation en politique des grands modèles de langage : phénoménologie, mécanisme et méthode
Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
April 14, 2026
Auteurs: Yaxuan Li, Yuxin Zuo, Bingxiang He, Jinqian Zhang, Chaojun Xiao, Cheng Qian, Tianyu Yu, Huan-ang Gao, Wenkai Yang, Zhiyuan Liu, Ning Ding
cs.AI
Résumé
La distillation sur politique (OPD) est devenue une technique fondamentale dans le post-entraînement des grands modèles de langage, bien que sa dynamique d'apprentissage reste mal comprise. Cet article propose une investigation systématique des dynamiques et mécanismes de l'OPD. Nous identifions d'abord deux conditions déterminant le succès ou l'échec de l'OPD : (i) l'étudiant et l'enseignant doivent partager des schémas de pensée compatibles ; et (ii) même avec des schémas de pensée cohérents et des scores supérieurs, l'enseignant doit offrir de véritables capacités nouvelles au-delà de ce que l'étudiant a vu pendant l'entraînement. Nous validons ces résultats par une distillation inverse faible-vers-fort, montrant que des enseignants de 1,5B et 7B de même famille sont indistinguables distributionnellement du point de vue de l'étudiant. En examinant le mécanisme au niveau des tokens, nous montrons que l'OPD réussie se caractérise par un alignement progressif sur les tokens à haute probabilité dans les états visités par l'étudiant, un petit ensemble partagé de tokens qui concentre l'essentiel de la masse probabiliste (97%-99%). Nous proposons ensuite deux stratégies pratiques pour récupérer les OPD en échec : un démarrage à froid hors politique et une sélection d'invites alignée sur l'enseignant. Enfin, nous montrons que le prétendu avantage gratuit de l'OPD en termes de récompense dense au niveau token a un coût, soulevant la question de savoir si l'OPD peut être mise à l'échelle pour la distillation à long terme.
English
On-policy distillation (OPD) has become a core technique in the post-training of large language models, yet its training dynamics remain poorly understood. This paper provides a systematic investigation of OPD dynamics and mechanisms. We first identify that two conditions govern whether OPD succeeds or fails: (i) the student and teacher should share compatible thinking patterns; and (ii) even with consistent thinking patterns and higher scores, the teacher must offer genuinely new capabilities beyond what the student has seen during training. We validate these findings through weak-to-strong reverse distillation, showing that same-family 1.5B and 7B teachers are distributionally indistinguishable from the student's perspective. Probing into the token-level mechanism, we show that successful OPD is characterized by progressive alignment on high-probability tokens at student-visited states, a small shared token set that concentrates most of the probability mass (97%-99%). We further propose two practical strategies to recover failing OPD: off-policy cold start and teacher-aligned prompt selection. Finally, we show that OPD's apparent free lunch of dense token-level reward comes at a cost, raising the question of whether OPD can scale to long-horizon distillation.