Переосмысление селективного дистилляции знаний
Rethinking Selective Knowledge Distillation
February 1, 2026
Авторы: Almog Tavor, Itay Ebenspanger, Neil Cnaan, Mor Geva
cs.AI
Аннотация
Растут усилия по совершенствованию дистилляции знаний (KD) в больших языковых моделях (LLM), где плотный контроль со стороны учителя заменяется селективной дистилляцией, использующей подмножество позиций токенов, классов словаря или обучающих примеров для контроля. Однако остается неясным, какие сигналы важности, стратегии отбора и их взаимодействие являются наиболее эффективными. В данной работе мы пересматриваем, где и как проводить дистилляцию в авторегрессионных LLM. Мы разделяем селективную KD по осям позиции, класса и примера и систематически сравниваем сигналы важности и стратегии отбора. Затем, руководствуясь этим анализом, мы выявляем недостаточно изученные возможности и представляем выбор позиций на основе энтропии студента (SE-KD). На наборе бенчмарков SE-KD часто превосходит плотную дистилляцию по точности, соответствию решаемым задачам и эффективности использования памяти. Расширение этого подхода на оси класса и примера (SE-KD 3X) дает дополнительные выгоды в эффективности, что делает возможным кэширование учителя в оффлайн-режиме. На практике это сокращает общее время выполнения на 70% и пиковое использование памяти на 18%, одновременно уменьшая объем хранилища на 80% по сравнению с предыдущими методами без ущерба для производительности.
English
Growing efforts to improve knowledge distillation (KD) in large language models (LLMs) replace dense teacher supervision with selective distillation, which uses a subset of token positions, vocabulary classes, or training samples for supervision. However, it remains unclear which importance signals, selection policies, and their interplay are most effective. In this work, we revisit where and how to distill in autoregressive LLMs. We disentangle selective KD along the position, class, and sample axes and systematically compare importance signals and selection policies. Then, guided by this analysis, we identify underexplored opportunities and introduce student-entropy-guided position selection (SE-KD). Across a suite of benchmarks, SE-KD often improves accuracy, downstream task adherence, and memory efficiency over dense distillation. Extending this approach across the class and sample axes (SE-KD 3X) yields complementary efficiency gains that make offline teacher caching feasible. In practice, this reduces wall time by 70% and peak memory by 18%, while cutting storage usage by 80% over prior methods without sacrificing performance.