Trouver Dori : La mémorisation dans les modèles de diffusion texte-image est moins localisée que supposé
Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed
July 22, 2025
papers.authors: Antoni Kowalczuk, Dominik Hintersdorf, Lukas Struppek, Kristian Kersting, Adam Dziedzic, Franziska Boenisch
cs.AI
papers.abstract
Les modèles de diffusion texte-image (DMs) ont obtenu un succès remarquable dans la génération d'images. Cependant, des préoccupations concernant la confidentialité des données et la propriété intellectuelle subsistent en raison de leur capacité à mémoriser et à reproduire involontairement les données d'entraînement. Les efforts récents de mitigation se sont concentrés sur l'identification et l'élagage des poids responsables du déclenchement de la reproduction, en partant de l'hypothèse que la mémorisation peut être localisée. Notre recherche évalue la robustesse de ces approches basées sur l'élagage. Nous démontrons que, même après l'élagage, des ajustements mineurs aux embeddings textuels des invites d'entrée suffisent à redéclencher la reproduction des données, mettant en évidence la fragilité de ces défenses. De plus, nous remettons en question l'hypothèse fondamentale de la localisation de la mémorisation, en montrant que la reproduction peut être déclenchée à partir de divers emplacements dans l'espace d'embedding textuel et suit des chemins différents dans le modèle. Nos résultats indiquent que les stratégies de mitigation existantes sont insuffisantes et soulignent la nécessité de méthodes qui éliminent véritablement le contenu mémorisé, plutôt que de tenter de supprimer sa récupération. Comme première étape dans cette direction, nous introduisons une nouvelle méthode de fine-tuning adversarial qui recherche itérativement les déclencheurs de reproduction et met à jour le modèle pour augmenter sa robustesse. À travers notre recherche, nous apportons de nouvelles perspectives sur la nature de la mémorisation dans les DMs texte-image et posons les bases pour la construction d'une IA générative plus fiable et conforme.
English
Text-to-image diffusion models (DMs) have achieved remarkable success in
image generation. However, concerns about data privacy and intellectual
property remain due to their potential to inadvertently memorize and replicate
training data. Recent mitigation efforts have focused on identifying and
pruning weights responsible for triggering replication, based on the assumption
that memorization can be localized. Our research assesses the robustness of
these pruning-based approaches. We demonstrate that even after pruning, minor
adjustments to text embeddings of input prompts are sufficient to re-trigger
data replication, highlighting the fragility of these defenses. Furthermore, we
challenge the fundamental assumption of memorization locality, by showing that
replication can be triggered from diverse locations within the text embedding
space, and follows different paths in the model. Our findings indicate that
existing mitigation strategies are insufficient and underscore the need for
methods that truly remove memorized content, rather than attempting to suppress
its retrieval. As a first step in this direction, we introduce a novel
adversarial fine-tuning method that iteratively searches for replication
triggers and updates the model to increase robustness. Through our research, we
provide fresh insights into the nature of memorization in text-to-image DMs and
a foundation for building more trustworthy and compliant generative AI.