Finding Dori: Die Memorisierung in Text-zu-Bild-Diffusionsmodellen ist weniger lokal als angenommen
Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed
July 22, 2025
papers.authors: Antoni Kowalczuk, Dominik Hintersdorf, Lukas Struppek, Kristian Kersting, Adam Dziedzic, Franziska Boenisch
cs.AI
papers.abstract
Text-to-Image-Diffusionsmodelle (DMs) haben bemerkenswerte Erfolge in der Bildgenerierung erzielt. Dennoch bestehen Bedenken hinsichtlich Datenschutz und geistigem Eigentum, da sie potenziell Trainingsdaten unbeabsichtigt memorieren und replizieren können. Jüngste Bemühungen zur Minderung dieses Problems konzentrierten sich auf die Identifizierung und das Beschneiden von Gewichten, die für die Auslösung von Replikationen verantwortlich sind, basierend auf der Annahme, dass Memorierung lokalisiert werden kann. Unsere Forschung bewertet die Robustheit dieser beschneidungsbasierten Ansätze. Wir zeigen, dass selbst nach dem Beschneiden geringfügige Anpassungen an den Text-Einbettungen der Eingabeaufforderungen ausreichen, um die Datenreplikation erneut auszulösen, was die Fragilität dieser Abwehrmechanismen verdeutlicht. Darüber hinaus stellen wir die grundlegende Annahme der Lokalität der Memorierung in Frage, indem wir zeigen, dass Replikationen von verschiedenen Stellen innerhalb des Text-Einbettungsraums ausgelöst werden können und unterschiedliche Pfade im Modell folgen. Unsere Ergebnisse deuten darauf hin, dass bestehende Minderungsstrategien unzureichend sind und die Notwendigkeit von Methoden unterstreichen, die memorierte Inhalte tatsächlich entfernen, anstatt zu versuchen, deren Abruf zu unterdrücken. Als ersten Schritt in diese Richtung führen wir eine neuartige adversarielle Feinabstimmungsmethode ein, die iterativ nach Replikationsauslösern sucht und das Modell aktualisiert, um die Robustheit zu erhöhen. Durch unsere Forschung liefern wir neue Einblicke in die Natur der Memorierung in Text-to-Image-DMs und eine Grundlage für die Entwicklung vertrauenswürdigerer und konformer generativer KI.
English
Text-to-image diffusion models (DMs) have achieved remarkable success in
image generation. However, concerns about data privacy and intellectual
property remain due to their potential to inadvertently memorize and replicate
training data. Recent mitigation efforts have focused on identifying and
pruning weights responsible for triggering replication, based on the assumption
that memorization can be localized. Our research assesses the robustness of
these pruning-based approaches. We demonstrate that even after pruning, minor
adjustments to text embeddings of input prompts are sufficient to re-trigger
data replication, highlighting the fragility of these defenses. Furthermore, we
challenge the fundamental assumption of memorization locality, by showing that
replication can be triggered from diverse locations within the text embedding
space, and follows different paths in the model. Our findings indicate that
existing mitigation strategies are insufficient and underscore the need for
methods that truly remove memorized content, rather than attempting to suppress
its retrieval. As a first step in this direction, we introduce a novel
adversarial fine-tuning method that iteratively searches for replication
triggers and updates the model to increase robustness. Through our research, we
provide fresh insights into the nature of memorization in text-to-image DMs and
a foundation for building more trustworthy and compliant generative AI.