言語モデルにおける知識蒸留の記憶化ダイナミクス
Memorization Dynamics in Knowledge Distillation for Language Models
January 21, 2026
著者: Jaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano
cs.AI
要旨
知識蒸留(KD)は、大規模言語モデルから小規模モデルへ能力を転送する手法として広く採用されるようになっており、標準的なファインチューニングをしばしば上回る効率性と有用性の向上をもたらす。性能面に加えて、KDは訓練データ漏洩のリスクを軽減するプライバシー保護メカニズムとしても探求されている。訓練データの記憶化については、標準的な事前学習やファインチューニングの設定では広く研究されているが、知識蒸留設定におけるその動態は十分に理解されていない。本研究では、3つの大規模言語モデルファミリー(Pythia、OLMo-2、Qwen-3)と3つのデータセット(FineWeb、Wikitext、Nemotron-CC-v2)を用いて、KDパイプライン全体における記憶化を調査する。我々は以下のことを明らかにした:(1)蒸留モデルは標準的なファインチューニングよりも訓練データの記憶量が著しく少ない(記憶化が50%以上減少)、(2)一部の事例は本質的に記憶化されやすく、蒸留中の記憶化の大部分(約95%以上)を占める、(3)zlibエントロピー、KLダイバージェンス、パープレキシティに基づく特徴量を用いることで、蒸留前でも生徒モデルの記憶化を予測可能である、(4)ソフト蒸留とハード蒸留では全体的な記憶化率は類似しているが、ハード蒸留はより高いリスクを伴う:教師モデルに特異的な事例をソフト蒸留の2.7倍多く継承する。全体として、蒸留は標準的なファインチューニングと比較して、一般化性能の向上と記憶化リスクの低減の両方を実現し得ることを示す。
English
Knowledge Distillation (KD) is increasingly adopted to transfer capabilities from large language models to smaller ones, offering significant improvements in efficiency and utility while often surpassing standard fine-tuning. Beyond performance, KD is also explored as a privacy-preserving mechanism to mitigate the risk of training data leakage. While training data memorization has been extensively studied in standard pre-training and fine-tuning settings, its dynamics in a knowledge distillation setup remain poorly understood. In this work, we study memorization across the KD pipeline using three large language model (LLM) families (Pythia, OLMo-2, Qwen-3) and three datasets (FineWeb, Wikitext, Nemotron-CC-v2). We find: (1) distilled models memorize significantly less training data than standard fine-tuning (reducing memorization by more than 50%); (2) some examples are inherently easier to memorize and account for a large fraction of memorization during distillation (over ~95%); (3) student memorization is predictable prior to distillation using features based on zlib entropy, KL divergence, and perplexity; and (4) while soft and hard distillation have similar overall memorization rates, hard distillation poses a greater risk: it inherits 2.7times more teacher-specific examples than soft distillation. Overall, we demonstrate that distillation can provide both improved generalization and reduced memorization risks compared to standard fine-tuning.