Une étude sur la distillation en politique pour les grands modèles de langage
A Survey of On-Policy Distillation for Large Language Models
April 1, 2026
Auteurs: Mingyang Song, Mao Zheng
cs.AI
Résumé
La distillation des connaissances est devenue un mécanisme essentiel pour transférer les capacités de raisonnement et l'expertise métier des grands modèles de langage (LLM) de pointe vers des modèles étudiants plus petits et déployables. Cependant, le paradigme dominant reste hors politique : les étudiants s'entraînent sur des données statiques générées par l'enseignant et ne rencontrent jamais leurs propres erreurs pendant l'apprentissage. Cette inadéquation entre l'entraînement et l'inférence, une instance du biais d'exposition, entraîne une accumulation autoregressive des erreurs de prédiction lors de l'inférence. La distillation en politique (OPD) résout ce problème en permettant à l'étudiant de générer ses propres trajectoires et de recevoir un retour d'information de l'enseignant sur ces sorties auto-générées, ancrant ainsi la distillation dans la théorie de l'apprentissage par imitation interactive. Malgré une croissance rapide couvrant la minimisation de la divergence, l'apprentissage guidé par les récompenses et l'auto-joué, la littérature sur l'OPD reste fragmentée sans cadre unifié. Cette étude fournit la première vue d'ensemble complète de l'OPD pour les LLM. Nous introduisons un cadre unifié basé sur la f-divergence sur des échantillons de politique et organisons le paysage selon trois dimensions orthogonales : le signal de feedback (basé sur les logits, sur le résultat ou l'auto-joué), l'accès à l'enseignant (boîte blanche, boîte noire ou sans enseignant) et la granularité de la perte (au niveau token, séquence ou hybride). Nous analysons systématiquement les méthodes représentatives, examinons les déploiements industriels et identifions les problèmes ouverts, incluant les lois d'échelle de la distillation, le feedback tenant compte de l'incertitude et la distillation au niveau agent.
English
Knowledge distillation has become a primary mechanism for transferring reasoning and domain expertise from frontier Large Language Models (LLMs) to smaller, deployable students. However, the dominant paradigm remains off-policy: students train on static teacher-generated data and never encounter their own errors during learning. This train--test mismatch, an instance of exposure bias, causes prediction errors to compound autoregressively at inference time. On-Policy Distillation (OPD) addresses this by letting the student generate its own trajectories and receive teacher feedback on these self-generated outputs, grounding distillation in the theory of interactive imitation learning. Despite rapid growth spanning divergence minimization, reward-guided learning, and self-play, the OPD literature remains fragmented with no unified treatment. This survey provides the first comprehensive overview of OPD for LLMs. We introduce a unified f-divergence framework over on-policy samples and organize the landscape along three orthogonal dimensions: feedback signal (logit-based, outcome-based, or self-play), teacher access (white-box, black-box, or teacher-free), and loss granularity (token-level, sequence-level, or hybrid). We systematically analyze representative methods, examine industrial deployments, and identify open problems including distillation scaling laws, uncertainty-aware feedback, and agent-level distillation.