選択的知識蒸留の再考
Rethinking Selective Knowledge Distillation
February 1, 2026
著者: Almog Tavor, Itay Ebenspanger, Neil Cnaan, Mor Geva
cs.AI
要旨
大規模言語モデル(LLM)における知識蒸留(KD)の改善を目指す近年の取り組みでは、教師モデルによる密な監視を選択的蒸留に置き換える傾向が強まっている。選択的蒸留とは、トークンの位置、語彙クラス、または訓練サンプルの一部を監視対象として用いる手法である。しかし、どの重要度信号と選択ポリシー、およびそれらの相互作用が最も効果的であるかは未だ明らかになっていない。本研究では、自己回帰型LLMにおいて、どこで、どのように蒸留を行うべきかを再検討する。我々は、位置、クラス、サンプルという軸に沿って選択的KDを分解し、重要度信号と選択ポリシーを体系的に比較する。この分析に基づき、未開拓の可能性を特定し、生徒モデルのエントロピーに基づく位置選択(SE-KD)を提案する。一連のベンチマークにおいて、SE-KDは、密な蒸留と比較して、多くの場合、精度、下流タスクへの適合性、メモリ効率の向上をもたらした。このアプローチをクラス軸とサンプル軸にも拡張した手法(SE-KD 3X)は、相補的な効率向上を実現し、オフラインでの教師モデルキャッシュを可能にする。実際に、この手法は従来手法と比較して性能を犠牲にすることなく、実効時間を70%削減、ピークメモリ使用量を18%削減、ストレージ使用量を80%削減する。
English
Growing efforts to improve knowledge distillation (KD) in large language models (LLMs) replace dense teacher supervision with selective distillation, which uses a subset of token positions, vocabulary classes, or training samples for supervision. However, it remains unclear which importance signals, selection policies, and their interplay are most effective. In this work, we revisit where and how to distill in autoregressive LLMs. We disentangle selective KD along the position, class, and sample axes and systematically compare importance signals and selection policies. Then, guided by this analysis, we identify underexplored opportunities and introduce student-entropy-guided position selection (SE-KD). Across a suite of benchmarks, SE-KD often improves accuracy, downstream task adherence, and memory efficiency over dense distillation. Extending this approach across the class and sample axes (SE-KD 3X) yields complementary efficiency gains that make offline teacher caching feasible. In practice, this reduces wall time by 70% and peak memory by 18%, while cutting storage usage by 80% over prior methods without sacrificing performance.