Een overzicht van on-policy distillatie voor grote taalmodellen

Samenvatting

Kennisdistillatie is uitgegroeid tot een primair mechanisme voor het overdragen van redeneer- en domeinexpertise van geavanceerde grote taalmodellen (LLM's) naar kleinere, inzetbare studentmodellen. Het dominante paradigma blijft echter off-policy: studentmodellen trainen op statische, door de leraar gegenereerde data en komen hun eigen fouten tijdens het leren nooit tegen. Deze train-test-mismatch, een vorm van exposure bias, zorgt ervoor dat voorspellingsfouten zich autoregressief opstapelen tijdens de inferentiefase. On-Policy Distillatie (OPD) lost dit op door de student zelf trajecten te laten genereren en feedback van de leraar te ontvangen op deze zelfgegenereerde outputs, waardoor distillatie wordt verankerd in de theorie van interactief imitatieleren. Ondanks een snelle groei die divergentieminimalisatie, beloningsgestuurd leren en zelfspel omvat, blijft de OPD-literatuur gefragmenteerd zonder een uniforme aanpak. Dit overzichtsartikel biedt de eerste uitgebreide synthese van OPD voor LLM's. Wij introduceren een uniform f-divergentieraamwerk over on-policy steekproeven en structureren het landschap langs drie orthogonale dimensies: feedbacksignaal (op logits gebaseerd, op uitkomsten gebaseerd, of zelfspel), toegang tot de leraar (white-box, black-box, of leraarvrij), en verliesgranulariteit (tokenniveau, sequentieniveau, of hybride). We analyseren systematisch representatieve methoden, onderzoeken industriële implementaties en identificeren open problemen, waaronder schaalwetten voor distillatie, onzekerheidsbewuste feedback en distillatie op agentniveau.

English

Knowledge distillation has become a primary mechanism for transferring reasoning and domain expertise from frontier Large Language Models (LLMs) to smaller, deployable students. However, the dominant paradigm remains off-policy: students train on static teacher-generated data and never encounter their own errors during learning. This train--test mismatch, an instance of exposure bias, causes prediction errors to compound autoregressively at inference time. On-Policy Distillation (OPD) addresses this by letting the student generate its own trajectories and receive teacher feedback on these self-generated outputs, grounding distillation in the theory of interactive imitation learning. Despite rapid growth spanning divergence minimization, reward-guided learning, and self-play, the OPD literature remains fragmented with no unified treatment. This survey provides the first comprehensive overview of OPD for LLMs. We introduce a unified f-divergence framework over on-policy samples and organize the landscape along three orthogonal dimensions: feedback signal (logit-based, outcome-based, or self-play), teacher access (white-box, black-box, or teacher-free), and loss granularity (token-level, sequence-level, or hybrid). We systematically analyze representative methods, examine industrial deployments, and identify open problems including distillation scaling laws, uncertainty-aware feedback, and agent-level distillation.

Een overzicht van on-policy distillatie voor grote taalmodellen

A Survey of On-Policy Distillation for Large Language Models

Samenvatting

Support