Replanteamiento de la Destilación Selectiva de Conocimiento
Rethinking Selective Knowledge Distillation
February 1, 2026
Autores: Almog Tavor, Itay Ebenspanger, Neil Cnaan, Mor Geva
cs.AI
Resumen
Los crecientes esfuerzos para mejorar la destilación de conocimiento (KD) en modelos de lenguaje grandes (LLMs) reemplazan la supervisión densa del profesor con una destilación selectiva, que utiliza un subconjunto de posiciones de tokens, clases de vocabulario o muestras de entrenamiento para la supervisión. Sin embargo, aún no está claro qué señales de importancia, políticas de selección y su interacción son más efectivas. En este trabajo, revisitamos dónde y cómo destilar en LLMs autorregresivos. Desentrañamos la KD selectiva a lo largo de los ejes de posición, clase y muestra, y comparamos sistemáticamente las señales de importancia y las políticas de selección. Luego, guiados por este análisis, identificamos oportunidades poco exploradas e introducimos la selección de posición guiada por la entropía del estudiante (SE-KD). En un conjunto de benchmarks, SE-KD a menudo mejora la precisión, la adherencia a tareas específicas y la eficiencia de memoria en comparación con la destilación densa. Extender este enfoque a través de los ejes de clase y muestra (SE-KD 3X) produce ganancias de eficiencia complementarias que hacen viable el almacenamiento en caché del profesor fuera de línea. En la práctica, esto reduce el tiempo de ejecución en un 70% y la memoria máxima en un 18%, mientras reduce el uso de almacenamiento en un 80% respecto a métodos anteriores sin sacrificar el rendimiento.
English
Growing efforts to improve knowledge distillation (KD) in large language models (LLMs) replace dense teacher supervision with selective distillation, which uses a subset of token positions, vocabulary classes, or training samples for supervision. However, it remains unclear which importance signals, selection policies, and their interplay are most effective. In this work, we revisit where and how to distill in autoregressive LLMs. We disentangle selective KD along the position, class, and sample axes and systematically compare importance signals and selection policies. Then, guided by this analysis, we identify underexplored opportunities and introduce student-entropy-guided position selection (SE-KD). Across a suite of benchmarks, SE-KD often improves accuracy, downstream task adherence, and memory efficiency over dense distillation. Extending this approach across the class and sample axes (SE-KD 3X) yields complementary efficiency gains that make offline teacher caching feasible. In practice, this reduces wall time by 70% and peak memory by 18%, while cutting storage usage by 80% over prior methods without sacrificing performance.