Ripensare la Distillazione Selettiva della Conoscenza

Abstract

Sforzi crescenti per migliorare la distillazione della conoscenza (KD) nei grandi modelli linguistici (LLM) stanno sostituendo la supervisione densa del docente con una distillazione selettiva, che utilizza un sottoinsieme di posizioni dei token, classi del vocabolario o campioni di addestramento per la supervisione. Tuttavia, rimane poco chiaro quali segnali di importanza, politiche di selezione e la loro interazione siano più efficaci. In questo lavoro, esaminiamo nuovamente dove e come effettuare la distillazione nei LLM autoregressivi. Disentanglediamo la KD selettiva lungo gli assi di posizione, classe e campione, e confrontiamo sistematicamente i segnali di importanza e le politiche di selezione. Quindi, guidati da questa analisi, identifichiamo opportunità poco esplorate e introduciamo la selezione di posizione guidata dall'entropia dello studente (SE-KD). In una serie di benchmark, la SE-KD migliora spesso l'accuratezza, l'aderenza ai task downstream e l'efficienza di memoria rispetto alla distillazione densa. Estendendo questo approccio attraverso gli assi di classe e campione (SE-KD 3X) si ottengono guadagni di efficienza complementari che rendono fattibile la memorizzazione in cache offline del docente. Nella pratica, ciò riduce il tempo di esecuzione del 70% e la memoria di picco del 18%, riducendo contemporaneamente l'utilizzo di storage dell'80% rispetto ai metodi precedenti senza sacrificare le prestazioni.

English

Growing efforts to improve knowledge distillation (KD) in large language models (LLMs) replace dense teacher supervision with selective distillation, which uses a subset of token positions, vocabulary classes, or training samples for supervision. However, it remains unclear which importance signals, selection policies, and their interplay are most effective. In this work, we revisit where and how to distill in autoregressive LLMs. We disentangle selective KD along the position, class, and sample axes and systematically compare importance signals and selection policies. Then, guided by this analysis, we identify underexplored opportunities and introduce student-entropy-guided position selection (SE-KD). Across a suite of benchmarks, SE-KD often improves accuracy, downstream task adherence, and memory efficiency over dense distillation. Extending this approach across the class and sample axes (SE-KD 3X) yields complementary efficiency gains that make offline teacher caching feasible. In practice, this reduces wall time by 70% and peak memory by 18%, while cutting storage usage by 80% over prior methods without sacrificing performance.

Ripensare la Distillazione Selettiva della Conoscenza

Rethinking Selective Knowledge Distillation

Abstract

Support