ChatPaper.aiChatPaper

선택적 지식 증류 재고하기

Rethinking Selective Knowledge Distillation

February 1, 2026
저자: Almog Tavor, Itay Ebenspanger, Neil Cnaan, Mor Geva
cs.AI

초록

대규모 언어 모델(LLM)의 지식 증류(KD)를 개선하기 위한 노력이 늘어나면서, 조밀한 교사 감독을 토큰 위치, 어휘 클래스 또는 훈련 샘플의 부분집합을 사용하는 선택적 증류로 대체하고 있습니다. 그러나 어떤 중요도 신호와 선택 정책, 그리고 이들의 상호작용이 가장 효과적인지는 여전히 명확하지 않습니다. 본 연구에서는 자기회귀적 LLM에서 어디서, 어떻게 증류할 것인지 재검토합니다. 우리는 위치, 클래스, 샘플 축을 따라 선택적 KD를 분리하고 중요도 신호와 선택 정책을 체계적으로 비교합니다. 이후 이 분석을 바탕으로 미개척된 기회를 식별하고 학생 엔트로피 기반 위치 선택(SE-KD)을 소개합니다. 일련의 벤치마크에서 SE-KD는 조밀 증류 대비 정확도, 하위 작업 준수도 및 메모리 효율성을 종종 향상시켰습니다. 이 접근법을 클래스 및 샘플 축으로 확장한(SE-KD 3X) 결과 성능 저하 없이 상호 보완적인 효율성 향상을 얻어 오프라인 교사 캐싱을 실현 가능하게 했습니다. 실제로 이는 기존 방법 대비 벽시 시간을 70% 단축하고 최대 메모리 사용량을 18% 줄이며 저장 공간 사용량을 80% 절감합니다.
English
Growing efforts to improve knowledge distillation (KD) in large language models (LLMs) replace dense teacher supervision with selective distillation, which uses a subset of token positions, vocabulary classes, or training samples for supervision. However, it remains unclear which importance signals, selection policies, and their interplay are most effective. In this work, we revisit where and how to distill in autoregressive LLMs. We disentangle selective KD along the position, class, and sample axes and systematically compare importance signals and selection policies. Then, guided by this analysis, we identify underexplored opportunities and introduce student-entropy-guided position selection (SE-KD). Across a suite of benchmarks, SE-KD often improves accuracy, downstream task adherence, and memory efficiency over dense distillation. Extending this approach across the class and sample axes (SE-KD 3X) yields complementary efficiency gains that make offline teacher caching feasible. In practice, this reduces wall time by 70% and peak memory by 18%, while cutting storage usage by 80% over prior methods without sacrificing performance.
PDF226February 7, 2026