Encontrando Dori: A Memorização em Modelos de Difusão Texto-para-Imagem É Menos Local do Que se Assumia
Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed
July 22, 2025
Autores: Antoni Kowalczuk, Dominik Hintersdorf, Lukas Struppek, Kristian Kersting, Adam Dziedzic, Franziska Boenisch
cs.AI
Resumo
Modelos de difusão texto-imagem (DMs) alcançaram sucesso notável na geração de imagens. No entanto, preocupações sobre privacidade de dados e propriedade intelectual persistem devido ao seu potencial de memorizar e replicar inadvertidamente dados de treinamento. Esforços recentes de mitigação têm se concentrado em identificar e podar os pesos responsáveis por desencadear a replicação, com base na suposição de que a memorização pode ser localizada. Nossa pesquisa avalia a robustez dessas abordagens baseadas em poda. Demonstramos que, mesmo após a poda, ajustes mínimos nos embeddings de texto dos prompts de entrada são suficientes para reativar a replicação de dados, destacando a fragilidade dessas defesas. Além disso, desafiamos a suposição fundamental da localidade da memorização, mostrando que a replicação pode ser desencadeada a partir de diversos locais no espaço de embedding de texto e segue caminhos diferentes no modelo. Nossos achados indicam que as estratégias de mitigação existentes são insuficientes e ressaltam a necessidade de métodos que realmente removam o conteúdo memorizado, em vez de tentar suprimir sua recuperação. Como um primeiro passo nessa direção, introduzimos um novo método de ajuste fino adversarial que busca iterativamente por gatilhos de replicação e atualiza o modelo para aumentar a robustez. Por meio de nossa pesquisa, fornecemos novos insights sobre a natureza da memorização em DMs texto-imagem e uma base para a construção de IA generativa mais confiável e em conformidade.
English
Text-to-image diffusion models (DMs) have achieved remarkable success in
image generation. However, concerns about data privacy and intellectual
property remain due to their potential to inadvertently memorize and replicate
training data. Recent mitigation efforts have focused on identifying and
pruning weights responsible for triggering replication, based on the assumption
that memorization can be localized. Our research assesses the robustness of
these pruning-based approaches. We demonstrate that even after pruning, minor
adjustments to text embeddings of input prompts are sufficient to re-trigger
data replication, highlighting the fragility of these defenses. Furthermore, we
challenge the fundamental assumption of memorization locality, by showing that
replication can be triggered from diverse locations within the text embedding
space, and follows different paths in the model. Our findings indicate that
existing mitigation strategies are insufficient and underscore the need for
methods that truly remove memorized content, rather than attempting to suppress
its retrieval. As a first step in this direction, we introduce a novel
adversarial fine-tuning method that iteratively searches for replication
triggers and updates the model to increase robustness. Through our research, we
provide fresh insights into the nature of memorization in text-to-image DMs and
a foundation for building more trustworthy and compliant generative AI.