ChatPaper.aiChatPaper

Neubewertung der selektiven Wissensdistillation

Rethinking Selective Knowledge Distillation

February 1, 2026
papers.authors: Almog Tavor, Itay Ebenspanger, Neil Cnaan, Mor Geva
cs.AI

papers.abstract

Zunehmende Bemühungen zur Verbesserung der Wissensdistillation (KD) bei großen Sprachmodellen (LLMs) ersetzen die dichte Lehrerüberwachung durch selektive Distillation, die eine Teilmenge von Token-Positionen, Vokabularklassen oder Trainingsbeispielen zur Überwachung verwendet. Es bleibt jedoch unklar, welche Signale für die Wichtigkeit, Auswahlstrategien und deren Zusammenspiel am effektivsten sind. In dieser Arbeit untersuchen wir erneut, wo und wie bei autoregressiven LLMs zu distillieren ist. Wir trennen selektive KD entlang der Positions-, Klassen- und Beispiel-Achsen auf und vergleichen systematisch Signale für die Wichtigkeit und Auswahlstrategien. Anschließend identifizieren wir, geleitet durch diese Analyse, unzureichend erforschte Möglichkeiten und führen eine positionsselektion basierend auf der Entropie des Schülers (SE-KD) ein. Über eine Reihe von Benchmarks hinweg verbessert SE-KD oft die Genauigkeit, die Einhaltung von Downstream-Aufgaben und die Speichereffizienz im Vergleich zur dichten Distillation. Die Ausweitung dieses Ansatzes über die Klassen- und Beispiel-Achsen (SE-KD 3X) führt zu komplementären Effizienzgewinnen, die ein Offline-Caching des Lehrers praktikabel machen. In der Praxis reduziert dies die Echtzeit um 70 % und den Spitzenspeicherbedarf um 18 %, während die Speichernutzung im Vergleich zu früheren Methoden um 80 % gesenkt wird, ohne die Leistung zu beeinträchtigen.
English
Growing efforts to improve knowledge distillation (KD) in large language models (LLMs) replace dense teacher supervision with selective distillation, which uses a subset of token positions, vocabulary classes, or training samples for supervision. However, it remains unclear which importance signals, selection policies, and their interplay are most effective. In this work, we revisit where and how to distill in autoregressive LLMs. We disentangle selective KD along the position, class, and sample axes and systematically compare importance signals and selection policies. Then, guided by this analysis, we identify underexplored opportunities and introduce student-entropy-guided position selection (SE-KD). Across a suite of benchmarks, SE-KD often improves accuracy, downstream task adherence, and memory efficiency over dense distillation. Extending this approach across the class and sample axes (SE-KD 3X) yields complementary efficiency gains that make offline teacher caching feasible. In practice, this reduces wall time by 70% and peak memory by 18%, while cutting storage usage by 80% over prior methods without sacrificing performance.
PDF226February 7, 2026