Dinâmica de Memorização na Distilação de Conhecimento para Modelos de Linguagem

Resumo

A Destilação de Conhecimento (KD, do inglês *Knowledge Distillation*) está sendo cada vez mais adotada para transferir capacidades de modelos de linguagem grandes para modelos menores, oferecendo melhorias significativas em eficiência e utilidade, frequentemente superando o ajuste fino padrão. Além do desempenho, a KD também é explorada como um mecanismo de preservação de privacidade para mitigar o risco de vazamento de dados de treinamento. Embora a memorização de dados de treinamento tenha sido amplamente estudada em contextos padrão de pré-treinamento e ajuste fino, sua dinâmica em uma configuração de destilação de conhecimento permanece pouco compreendida. Neste trabalho, estudamos a memorização em todo o pipeline de KD usando três famílias de modelos de linguagem grandes (Pythia, OLMo-2, Qwen-3) e três conjuntos de dados (FineWeb, Wikitext, Nemotron-CC-v2). Descobrimos: (1) modelos destilados memorizam significativamente menos dados de treinamento do que o ajuste fino padrão (reduzindo a memorização em mais de 50%); (2) alguns exemplos são inerentemente mais fáceis de memorizar e representam uma grande fração da memorização durante a destilação (mais de ~95%); (3) a memorização do aluno é previsível antes da destilação usando características baseadas na entropia zlib, divergência KL e perplexidade; e (4) embora a destilação suave e a rígida tenham taxas gerais de memorização semelhantes, a destilação rígida representa um risco maior: ela herda 2,7 vezes mais exemplos específicos do professor do que a destilação suave. No geral, demonstramos que a destilação pode proporcionar tanto uma generalização aprimorada quanto riscos reduzidos de memorização em comparação com o ajuste fino padrão.

English

Knowledge Distillation (KD) is increasingly adopted to transfer capabilities from large language models to smaller ones, offering significant improvements in efficiency and utility while often surpassing standard fine-tuning. Beyond performance, KD is also explored as a privacy-preserving mechanism to mitigate the risk of training data leakage. While training data memorization has been extensively studied in standard pre-training and fine-tuning settings, its dynamics in a knowledge distillation setup remain poorly understood. In this work, we study memorization across the KD pipeline using three large language model (LLM) families (Pythia, OLMo-2, Qwen-3) and three datasets (FineWeb, Wikitext, Nemotron-CC-v2). We find: (1) distilled models memorize significantly less training data than standard fine-tuning (reducing memorization by more than 50%); (2) some examples are inherently easier to memorize and account for a large fraction of memorization during distillation (over ~95%); (3) student memorization is predictable prior to distillation using features based on zlib entropy, KL divergence, and perplexity; and (4) while soft and hard distillation have similar overall memorization rates, hard distillation poses a greater risk: it inherits 2.7times more teacher-specific examples than soft distillation. Overall, we demonstrate that distillation can provide both improved generalization and reduced memorization risks compared to standard fine-tuning.

Dinâmica de Memorização na Distilação de Conhecimento para Modelos de Linguagem

Memorization Dynamics in Knowledge Distillation for Language Models

Resumo

Support