언어 모델의 지식 증류에서 나타나는 암기 역학
Memorization Dynamics in Knowledge Distillation for Language Models
January 21, 2026
저자: Jaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano
cs.AI
초록
지식 증류(Knowledge Distillation, KD)는 대규모 언어 모델의 능력을 더 작은 모델로 전이시키기 위해 점점 더 많이 채택되고 있으며, 표준 미세 조정을 종종 능가하는 효율성과 유용성의 상당한 개선을 제공합니다. 성능 향상 외에도, KD는 훈련 데이터 누출 위험을 완화하기 위한 개인정보 보호 메커니즘으로도 탐구되고 있습니다. 훈련 데이터 암기 현상은 표준 사전 훈련 및 미세 조정 환경에서 광범위하게 연구되었지만, 지식 증류 설정에서의 동역학은 아직 잘 이해되지 않고 있습니다. 본 연구에서는 세 가지 대규모 언어 모델(LLM) 패밀리(Pythia, OLMo-2, Qwen-3)과 세 가지 데이터셋(FineWeb, Wikitext, Nemotron-CC-v2)을 사용하여 KD 파이프라인 전반에 걸친 암기 현상을 연구합니다. 우리는 다음과 같은 사실을 발견했습니다: (1) 증류된 모델은 표준 미세 조정보다 훈련 데이터를 상당히 덜 암기합니다(암기율을 50% 이상 감소). (2) 일부 예제는 본질적으로 암기하기 쉬우며 증류 과정 중 발생하는 암기의 큰 부분을 차지합니다(약 95% 이상). (3) 학생 모델의 암기 현상은 zlib 엔트로피, KL 발산, 퍼플렉서티를 기반으로 한 특징을 사용하여 증류 전에 예측 가능합니다. (4) 소프트 증류와 하드 증류는 전체 암기율은 유사하지만, 하드 증류가 더 큰 위험을 내포합니다: 하드 증류는 소프트 증류보다 교사 모델 특정 예제를 2.7배 더 많이 상속합니다. 전반적으로, 우리는 증류가 표준 미세 조정에 비해 개선된 일반화와 감소된 암기 위험을 모두 제공할 수 있음을 입증합니다.
English
Knowledge Distillation (KD) is increasingly adopted to transfer capabilities from large language models to smaller ones, offering significant improvements in efficiency and utility while often surpassing standard fine-tuning. Beyond performance, KD is also explored as a privacy-preserving mechanism to mitigate the risk of training data leakage. While training data memorization has been extensively studied in standard pre-training and fine-tuning settings, its dynamics in a knowledge distillation setup remain poorly understood. In this work, we study memorization across the KD pipeline using three large language model (LLM) families (Pythia, OLMo-2, Qwen-3) and three datasets (FineWeb, Wikitext, Nemotron-CC-v2). We find: (1) distilled models memorize significantly less training data than standard fine-tuning (reducing memorization by more than 50%); (2) some examples are inherently easier to memorize and account for a large fraction of memorization during distillation (over ~95%); (3) student memorization is predictable prior to distillation using features based on zlib entropy, KL divergence, and perplexity; and (4) while soft and hard distillation have similar overall memorization rates, hard distillation poses a greater risk: it inherits 2.7times more teacher-specific examples than soft distillation. Overall, we demonstrate that distillation can provide both improved generalization and reduced memorization risks compared to standard fine-tuning.