ChatPaper.aiChatPaper

Repenser la distillation sélective des connaissances

Rethinking Selective Knowledge Distillation

February 1, 2026
papers.authors: Almog Tavor, Itay Ebenspanger, Neil Cnaan, Mor Geva
cs.AI

papers.abstract

Les efforts croissants pour améliorer la distillation des connaissances (KD) dans les grands modèles de langage (LLM) remplacent la supervision dense des enseignants par une distillation sélective, qui utilise un sous-ensemble de positions de tokens, de classes de vocabulaire ou d'échantillons d'entraînement pour la supervision. Cependant, il reste incertain quels signaux d'importance, quelles politiques de sélection et quelles interactions entre eux sont les plus efficaces. Dans ce travail, nous revisitons où et comment distiller dans les LLM autogrégressifs. Nous dissocions la KD sélective selon les axes de position, de classe et d'échantillon, et comparons systématiquement les signaux d'importance et les politiques de sélection. Ensuite, guidés par cette analyse, nous identifions des opportunités sous-explorées et introduisons la sélection de position guidée par l'entropie de l'étudiant (SE-KD). Sur une série de benchmarks, la SE-KD améliore souvent la précision, l'adhérence aux tâches en aval et l'efficacité mémoire par rapport à la distillation dense. L'extension de cette approche aux axes de classe et d'échantillon (SE-KD 3X) produit des gains d'efficacité complémentaires qui rendent possible la mise en cache hors ligne des enseignants. En pratique, cela réduit le temps d'exécution de 70 % et la mémoire maximale de 18 %, tout en diminuant l'utilisation du stockage de 80 % par rapport aux méthodes antérieures, sans sacrifier les performances.
English
Growing efforts to improve knowledge distillation (KD) in large language models (LLMs) replace dense teacher supervision with selective distillation, which uses a subset of token positions, vocabulary classes, or training samples for supervision. However, it remains unclear which importance signals, selection policies, and their interplay are most effective. In this work, we revisit where and how to distill in autoregressive LLMs. We disentangle selective KD along the position, class, and sample axes and systematically compare importance signals and selection policies. Then, guided by this analysis, we identify underexplored opportunities and introduce student-entropy-guided position selection (SE-KD). Across a suite of benchmarks, SE-KD often improves accuracy, downstream task adherence, and memory efficiency over dense distillation. Extending this approach across the class and sample axes (SE-KD 3X) yields complementary efficiency gains that make offline teacher caching feasible. In practice, this reduces wall time by 70% and peak memory by 18%, while cutting storage usage by 80% over prior methods without sacrificing performance.
PDF226February 7, 2026