Heroverdenken van Selectieve Kennisdistillatie

Samenvatting

Er worden steeds meer inspanningen geleverd om kennisdistillatie (KD) in grote taalmmodellen (LLM's) te verbeteren door de dichte supervisie van de leraar te vervangen door selectieve distillatie, waarbij een subset van tokenposities, vocabulaire klassen of trainingsvoorbeelden voor supervisie wordt gebruikt. Het blijft echter onduidelijk welke belangrijkheidssignalen, selectiebeleidslijnen en hun onderlinge samenhang het meest effectief zijn. In dit werk herzien we waar en hoe te distilleren in autoregressieve LLM's. We ontwarren selectieve KD langs de positie-, klasse- en voorbeeldassen en vergelijken systematisch belangrijkheidssignalen en selectiebeleidslijnen. Vervolgens identificeren we, geleid door deze analyse, onderbelichte mogelijkheden en introduceren we student-entropie-gestuurde positie-selectie (SE-KD). Over een reeks benchmarks heen verbetert SE-KD vaak de nauwkeurigheid, de naleving van downstreamtaken en de geheugenefficiëntie in vergelijking met dichte distillatie. Het uitbreiden van deze aanpak over de klasse- en voorbeeldassen (SE-KD 3X) levert complementaire efficiëntiewinsten op die offline caching van de leraar haalbaar maken. In de praktijk reduceert dit de wandtijd met 70% en het piekgeheugen met 18%, terwijl het opslaggebruik met 80% wordt verminderd ten opzichte van eerdere methoden zonder prestatieverlies.

English

Growing efforts to improve knowledge distillation (KD) in large language models (LLMs) replace dense teacher supervision with selective distillation, which uses a subset of token positions, vocabulary classes, or training samples for supervision. However, it remains unclear which importance signals, selection policies, and their interplay are most effective. In this work, we revisit where and how to distill in autoregressive LLMs. We disentangle selective KD along the position, class, and sample axes and systematically compare importance signals and selection policies. Then, guided by this analysis, we identify underexplored opportunities and introduce student-entropy-guided position selection (SE-KD). Across a suite of benchmarks, SE-KD often improves accuracy, downstream task adherence, and memory efficiency over dense distillation. Extending this approach across the class and sample axes (SE-KD 3X) yields complementary efficiency gains that make offline teacher caching feasible. In practice, this reduces wall time by 70% and peak memory by 18%, while cutting storage usage by 80% over prior methods without sacrificing performance.

Heroverdenken van Selectieve Kennisdistillatie

Rethinking Selective Knowledge Distillation

Samenvatting

Support