Repensando a Distilação Seletiva de Conhecimento

Resumo

Os crescentes esforços para melhorar a distillação de conhecimento (KD) em grandes modelos de linguagem (LLMs) estão substituindo a supervisão densa do professor por uma distillação seletiva, que utiliza um subconjunto de posições de tokens, classes de vocabulário ou amostras de treinamento para supervisão. No entanto, ainda não está claro quais sinais de importância, políticas de seleção e sua interação são mais eficazes. Neste trabalho, revisitamos onde e como realizar a distillação em LLMs autoregressivos. Desacoplamos a KD seletiva ao longo dos eixos de posição, classe e amostra e comparamos sistematicamente sinais de importância e políticas de seleção. Em seguida, guiados por esta análise, identificamos oportunidades pouco exploradas e introduzimos a seleção de posição guiada pela entropia do estudante (SE-KD). Em uma série de benchmarks, a SE-KD frequentemente melhora a precisão, a aderência a tarefas downstream e a eficiência de memória em comparação com a distillação densa. A extensão desta abordagem através dos eixos de classe e amostra (SE-KD 3X) produz ganhos de eficiência complementares que tornam viável o cache offline do professor. Na prática, isso reduz o tempo de execução em 70% e a memória de pico em 18%, enquanto diminui o uso de armazenamento em 80% em relação aos métodos anteriores, sem sacrificar o desempenho.

English

Growing efforts to improve knowledge distillation (KD) in large language models (LLMs) replace dense teacher supervision with selective distillation, which uses a subset of token positions, vocabulary classes, or training samples for supervision. However, it remains unclear which importance signals, selection policies, and their interplay are most effective. In this work, we revisit where and how to distill in autoregressive LLMs. We disentangle selective KD along the position, class, and sample axes and systematically compare importance signals and selection policies. Then, guided by this analysis, we identify underexplored opportunities and introduce student-entropy-guided position selection (SE-KD). Across a suite of benchmarks, SE-KD often improves accuracy, downstream task adherence, and memory efficiency over dense distillation. Extending this approach across the class and sample axes (SE-KD 3X) yields complementary efficiency gains that make offline teacher caching feasible. In practice, this reduces wall time by 70% and peak memory by 18%, while cutting storage usage by 80% over prior methods without sacrificing performance.

Repensando a Distilação Seletiva de Conhecimento

Rethinking Selective Knowledge Distillation

Resumo

Support