Dori vinden: Memorisatie in tekst-naar-beeld diffusiemodellen is minder lokaal dan verondersteld
Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed
July 22, 2025
Auteurs: Antoni Kowalczuk, Dominik Hintersdorf, Lukas Struppek, Kristian Kersting, Adam Dziedzic, Franziska Boenisch
cs.AI
Samenvatting
Text-to-image diffusiemodellen (DMs) hebben opmerkelijke successen geboekt in beeldgeneratie. Er bestaan echter zorgen over gegevensprivacy en intellectueel eigendom vanwege hun potentieel om onbedoeld trainingsgegevens te onthouden en te repliceren. Recente inspanningen om dit te mitigeren hebben zich gericht op het identificeren en verwijderen van gewichten die verantwoordelijk zijn voor het activeren van replicatie, gebaseerd op de aanname dat onthouden gelokaliseerd kan worden. Ons onderzoek beoordeelt de robuustheid van deze op snoeien gebaseerde benaderingen. We tonen aan dat zelfs na het snoeien, kleine aanpassingen aan de tekstembeddingen van invoerprompts voldoende zijn om gegevensreplicatie opnieuw te activeren, wat de kwetsbaarheid van deze verdedigingsmechanismen benadrukt. Bovendien betwisten we de fundamentele aanname van gelokaliseerd onthouden door aan te tonen dat replicatie vanuit diverse locaties binnen de tekstembeddingruimte kan worden geactiveerd en verschillende paden in het model volgt. Onze bevindingen geven aan dat bestaande mitigatiestrategieën ontoereikend zijn en benadrukken de noodzaak voor methoden die onthouden inhoud daadwerkelijk verwijderen, in plaats van te proberen de ophaling ervan te onderdrukken. Als eerste stap in deze richting introduceren we een nieuwe adversariële fine-tuningmethode die iteratief zoekt naar replicatietriggers en het model bijwerkt om de robuustheid te vergroten. Door ons onderzoek bieden we nieuwe inzichten in de aard van onthouden in text-to-image DMs en een basis voor het bouwen van betrouwbaardere en compliantere generatieve AI.
English
Text-to-image diffusion models (DMs) have achieved remarkable success in
image generation. However, concerns about data privacy and intellectual
property remain due to their potential to inadvertently memorize and replicate
training data. Recent mitigation efforts have focused on identifying and
pruning weights responsible for triggering replication, based on the assumption
that memorization can be localized. Our research assesses the robustness of
these pruning-based approaches. We demonstrate that even after pruning, minor
adjustments to text embeddings of input prompts are sufficient to re-trigger
data replication, highlighting the fragility of these defenses. Furthermore, we
challenge the fundamental assumption of memorization locality, by showing that
replication can be triggered from diverse locations within the text embedding
space, and follows different paths in the model. Our findings indicate that
existing mitigation strategies are insufficient and underscore the need for
methods that truly remove memorized content, rather than attempting to suppress
its retrieval. As a first step in this direction, we introduce a novel
adversarial fine-tuning method that iteratively searches for replication
triggers and updates the model to increase robustness. Through our research, we
provide fresh insights into the nature of memorization in text-to-image DMs and
a foundation for building more trustworthy and compliant generative AI.