ChatPaper.aiChatPaper

Dinámicas de la Memorización en la Distilación de Conocimiento para Modelos de Lenguaje

Memorization Dynamics in Knowledge Distillation for Language Models

January 21, 2026
Autores: Jaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano
cs.AI

Resumen

La Distilación de Conocimiento (KD, por sus siglas en inglés) se está adoptando cada vez más para transferir capacidades de modelos lingüísticos grandes a otros más pequeños, ofreciendo mejoras significativas en eficiencia y utilidad, a menudo superando al ajuste fino estándar. Más allá del rendimiento, la KD también se explora como un mecanismo de preservación de la privacidad para mitigar el riesgo de filtración de datos de entrenamiento. Si bien la memorización de datos de entrenamiento se ha estudiado ampliamente en los entornos estándar de pre-entrenamiento y ajuste fino, su dinámica en una configuración de distilación de conocimiento sigue siendo poco comprendida. En este trabajo, estudiamos la memorización a lo largo del pipeline de KD utilizando tres familias de modelos lingüísticos grandes (Pythia, OLMo-2, Qwen-3) y tres conjuntos de datos (FineWeb, Wikitext, Nemotron-CC-v2). Encontramos: (1) los modelos destilados memorizan significativamente menos datos de entrenamiento que el ajuste fino estándar (reduciendo la memorización en más del 50%); (2) algunos ejemplos son inherentemente más fáciles de memorizar y representan una gran fracción de la memorización durante la destilación (más del ~95%); (3) la memorización del estudiante es predecible antes de la destilación utilizando características basadas en la entropía zlib, la divergencia KL y la perplejidad; y (4) aunque la destilación suave y la dura tienen tasas generales de memorización similares, la destilación dura presenta un riesgo mayor: hereda 2.7 veces más ejemplos específicos del profesor que la destilación suave. En general, demostramos que la destilación puede proporcionar tanto una generalización mejorada como riesgos reducidos de memorización en comparación con el ajuste fino estándar.
English
Knowledge Distillation (KD) is increasingly adopted to transfer capabilities from large language models to smaller ones, offering significant improvements in efficiency and utility while often surpassing standard fine-tuning. Beyond performance, KD is also explored as a privacy-preserving mechanism to mitigate the risk of training data leakage. While training data memorization has been extensively studied in standard pre-training and fine-tuning settings, its dynamics in a knowledge distillation setup remain poorly understood. In this work, we study memorization across the KD pipeline using three large language model (LLM) families (Pythia, OLMo-2, Qwen-3) and three datasets (FineWeb, Wikitext, Nemotron-CC-v2). We find: (1) distilled models memorize significantly less training data than standard fine-tuning (reducing memorization by more than 50%); (2) some examples are inherently easier to memorize and account for a large fraction of memorization during distillation (over ~95%); (3) student memorization is predictable prior to distillation using features based on zlib entropy, KL divergence, and perplexity; and (4) while soft and hard distillation have similar overall memorization rates, hard distillation poses a greater risk: it inherits 2.7times more teacher-specific examples than soft distillation. Overall, we demonstrate that distillation can provide both improved generalization and reduced memorization risks compared to standard fine-tuning.
PDF22February 3, 2026