ChatPaper.aiChatPaper

Memorisierungsdynamiken bei der Wissensdistillation für Sprachmodelle

Memorization Dynamics in Knowledge Distillation for Language Models

January 21, 2026
papers.authors: Jaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano
cs.AI

papers.abstract

Wissensdistillation (KD) wird zunehmend eingesetzt, um Fähigkeiten von großen Sprachmodellen auf kleinere zu übertragen, und bietet dabei signifikante Verbesserungen in Effizienz und Nutzbarkeit, wobei sie häufig das Standard-Fine-Tuning übertrifft. Neben der Leistung wird KD auch als privatsphärenehmender Mechanismus erforscht, um das Risiko von Training-Daten-Leaks zu mindern. Während die Memorierung von Trainingsdaten in Standard-Pre-Training- und Fine-Tuning-Szenarien umfassend untersucht wurde, sind ihre Dynamiken in einem Knowledge-Distillation-Setup noch wenig verstanden. In dieser Arbeit untersuchen wir Memorierung über die gesamte KD-Pipeline hinweg unter Verwendung von drei großen Sprachmodell-Familien (Pythia, OLMo-2, Qwen-3) und drei Datensätzen (FineWeb, Wikitext, Nemotron-CC-v2). Wir stellen fest: (1) distillierte Modelle memorieren signifikant weniger Trainingsdaten als Standard-Fine-Tuning (Reduzierung der Memorierung um mehr als 50 %); (2) einige Beispiele sind von Natur aus leichter zu memorieren und machen einen großen Teil der Memorierung während der Distillation aus (über ~95 %); (3) die Memorierung durch den Studenten ist vor der Distillation vorhersagbar, und zwar anhand von Merkmalen, die auf zlib-Entropie, KL-Divergenz und Perplexität basieren; und (4) während weiche und harte Distillation ähnliche Gesamt-Memorierungsraten aufweisen, birgt harte Distillation ein größeres Risiko: Sie übernimmt 2,7-mal mehr lehrerspezifische Beispiele als weiche Distillation. Insgesamt zeigen wir, dass Distillation im Vergleich zum Standard-Fine-Tuning sowohl verbesserte Generalisierung als auch reduzierte Memorierungsrisiken bieten kann.
English
Knowledge Distillation (KD) is increasingly adopted to transfer capabilities from large language models to smaller ones, offering significant improvements in efficiency and utility while often surpassing standard fine-tuning. Beyond performance, KD is also explored as a privacy-preserving mechanism to mitigate the risk of training data leakage. While training data memorization has been extensively studied in standard pre-training and fine-tuning settings, its dynamics in a knowledge distillation setup remain poorly understood. In this work, we study memorization across the KD pipeline using three large language model (LLM) families (Pythia, OLMo-2, Qwen-3) and three datasets (FineWeb, Wikitext, Nemotron-CC-v2). We find: (1) distilled models memorize significantly less training data than standard fine-tuning (reducing memorization by more than 50%); (2) some examples are inherently easier to memorize and account for a large fraction of memorization during distillation (over ~95%); (3) student memorization is predictable prior to distillation using features based on zlib entropy, KL divergence, and perplexity; and (4) while soft and hard distillation have similar overall memorization rates, hard distillation poses a greater risk: it inherits 2.7times more teacher-specific examples than soft distillation. Overall, we demonstrate that distillation can provide both improved generalization and reduced memorization risks compared to standard fine-tuning.
PDF22February 3, 2026