Uno Studio sulla Distillazione On-Policy per i Grandi Modelli Linguistici

Abstract

La distillazione della conoscenza è diventata un meccanismo primario per trasferire capacità di ragionamento e competenze di dominio dai modelli linguistici di grandi dimensioni (LLM) all'avanguardia a studenti più piccoli e distribuibili. Tuttavia, il paradigma dominante rimane *off-policy*: gli studenti si addestrano su dati statici generati dal docente e non incontrano mai i propri errori durante l'apprendimento. Questo disallineamento addestramento-test, un'istanza dell'*exposure bias*, fa sì che gli errori di predizione si accumulino in modo autoregressivo al momento dell'inferenza. La Distillazione On-Policy (OPD) affronta questo problema permettendo allo studente di generare le proprie traiettorie e ricevere feedback dal docente su questi output auto-generati, ancorando la distillazione alla teoria dell'apprendimento per imitazione interattiva. Nonostante la rapida crescita che abbraccia la minimizzazione della divergenza, l'apprendimento guidato da ricompense e l'auto-gioco, la letteratura sull'OPD rimane frammentata senza un trattamento unificato. Questa survey fornisce la prima panoramica completa dell'OPD per gli LLM. Introduciamo un framework unificato basato sulla divergenza f su campioni on-policy e organizziamo il panorama lungo tre dimensioni ortogonali: segnale di feedback (basato sui logit, basato sull'esito o self-play), accesso al docente (white-box, black-box o senza docente) e granularità della loss (a livello di token, a livello di sequenza o ibrida). Analizziamo sistematicamente i metodi rappresentativi, esaminiamo le implementazioni industriali e identifichiamo problemi aperti, incluse le leggi di scala della distillazione, il feedback *uncertainty-aware* e la distillazione a livello di agente.

English

Knowledge distillation has become a primary mechanism for transferring reasoning and domain expertise from frontier Large Language Models (LLMs) to smaller, deployable students. However, the dominant paradigm remains off-policy: students train on static teacher-generated data and never encounter their own errors during learning. This train--test mismatch, an instance of exposure bias, causes prediction errors to compound autoregressively at inference time. On-Policy Distillation (OPD) addresses this by letting the student generate its own trajectories and receive teacher feedback on these self-generated outputs, grounding distillation in the theory of interactive imitation learning. Despite rapid growth spanning divergence minimization, reward-guided learning, and self-play, the OPD literature remains fragmented with no unified treatment. This survey provides the first comprehensive overview of OPD for LLMs. We introduce a unified f-divergence framework over on-policy samples and organize the landscape along three orthogonal dimensions: feedback signal (logit-based, outcome-based, or self-play), teacher access (white-box, black-box, or teacher-free), and loss granularity (token-level, sequence-level, or hybrid). We systematically analyze representative methods, examine industrial deployments, and identify open problems including distillation scaling laws, uncertainty-aware feedback, and agent-level distillation.

Uno Studio sulla Distillazione On-Policy per i Grandi Modelli Linguistici

A Survey of On-Policy Distillation for Large Language Models

Abstract

Support