Dynamiques de mémorisation dans la distillation de connaissances pour les modèles de langage
Memorization Dynamics in Knowledge Distillation for Language Models
January 21, 2026
papers.authors: Jaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano
cs.AI
papers.abstract
La distillation des connaissances (KD) est de plus en plus adoptée pour transférer les capacités des grands modèles linguistiques vers des modèles plus petits, offrant des améliorations significatives en termes d'efficacité et d'utilité tout en surpassant souvent l'affinage standard. Au-delà des performances, la KD est également explorée comme mécanisme de préservation de la vie privée pour atténuer le risque de fuite des données d'entraînement. Bien que la mémorisation des données d'entraînement ait été largement étudiée dans les contextes standard de pré-entraînement et d'affinage, sa dynamique dans un cadre de distillation des connaissances reste mal comprise. Dans ce travail, nous étudions la mémorisation à travers le pipeline de KD en utilisant trois familles de grands modèles linguistiques (Pythia, OLMo-2, Qwen-3) et trois jeux de données (FineWeb, Wikitext, Nemotron-CC-v2). Nous constatons : (1) les modèles distillés mémorisent significativement moins de données d'entraînement que l'affinage standard (réduisant la mémorisation de plus de 50 %) ; (2) certains exemples sont intrinsèquement plus faciles à mémoriser et représentent une large fraction de la mémorisation pendant la distillation (plus de ~95 %) ; (3) la mémorisation de l'élève est prévisible avant la distillation en utilisant des caractéristiques basées sur l'entropie zlib, la divergence KL et la perplexité ; et (4) bien que les distillations douce et dure aient des taux de mémorisation globaux similaires, la distillation dure présente un risque plus élevé : elle hérite 2,7 fois plus d'exemples spécifiques à l'enseignant que la distillation douce. Globalement, nous démontrons que la distillation peut offrir à la fois une meilleure généralisation et des risques de mémorisation réduits par rapport à l'affinage standard.
English
Knowledge Distillation (KD) is increasingly adopted to transfer capabilities from large language models to smaller ones, offering significant improvements in efficiency and utility while often surpassing standard fine-tuning. Beyond performance, KD is also explored as a privacy-preserving mechanism to mitigate the risk of training data leakage. While training data memorization has been extensively studied in standard pre-training and fine-tuning settings, its dynamics in a knowledge distillation setup remain poorly understood. In this work, we study memorization across the KD pipeline using three large language model (LLM) families (Pythia, OLMo-2, Qwen-3) and three datasets (FineWeb, Wikitext, Nemotron-CC-v2). We find: (1) distilled models memorize significantly less training data than standard fine-tuning (reducing memorization by more than 50%); (2) some examples are inherently easier to memorize and account for a large fraction of memorization during distillation (over ~95%); (3) student memorization is predictable prior to distillation using features based on zlib entropy, KL divergence, and perplexity; and (4) while soft and hard distillation have similar overall memorization rates, hard distillation poses a greater risk: it inherits 2.7times more teacher-specific examples than soft distillation. Overall, we demonstrate that distillation can provide both improved generalization and reduced memorization risks compared to standard fine-tuning.