Trovare Dori: La memorizzazione nei modelli di diffusione testo-immagine è meno localizzata di quanto si pensi
Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed
July 22, 2025
Autori: Antoni Kowalczuk, Dominik Hintersdorf, Lukas Struppek, Kristian Kersting, Adam Dziedzic, Franziska Boenisch
cs.AI
Abstract
I modelli di diffusione testo-immagine (DMs) hanno ottenuto un notevole successo nella generazione di immagini. Tuttavia, persistono preoccupazioni riguardanti la privacy dei dati e la proprietà intellettuale a causa della loro potenziale capacità di memorizzare e replicare involontariamente i dati di addestramento. Recenti sforzi di mitigazione si sono concentrati sull'identificazione e la rimozione dei pesi responsabili dell'innesco della replicazione, basandosi sull'assunzione che la memorizzazione possa essere localizzata. La nostra ricerca valuta la robustezza di questi approcci basati sulla rimozione dei pesi. Dimostriamo che, anche dopo la rimozione, piccoli aggiustamenti agli embedding testuali degli input sono sufficienti per riattivare la replicazione dei dati, evidenziando la fragilità di queste difese. Inoltre, mettiamo in discussione l'assunzione fondamentale della località della memorizzazione, mostrando che la replicazione può essere attivata da diverse posizioni all'interno dello spazio degli embedding testuali e segue percorsi diversi nel modello. Le nostre scoperte indicano che le strategie di mitigazione esistenti sono insufficienti e sottolineano la necessità di metodi che rimuovano veramente i contenuti memorizzati, piuttosto che tentare di sopprimerne il recupero. Come primo passo in questa direzione, introduciamo un nuovo metodo di fine-tuning avversario che ricerca iterativamente i trigger di replicazione e aggiorna il modello per aumentarne la robustezza. Attraverso la nostra ricerca, forniamo nuove intuizioni sulla natura della memorizzazione nei DMs testo-immagine e una base per costrure un'IA generativa più affidabile e conforme.
English
Text-to-image diffusion models (DMs) have achieved remarkable success in
image generation. However, concerns about data privacy and intellectual
property remain due to their potential to inadvertently memorize and replicate
training data. Recent mitigation efforts have focused on identifying and
pruning weights responsible for triggering replication, based on the assumption
that memorization can be localized. Our research assesses the robustness of
these pruning-based approaches. We demonstrate that even after pruning, minor
adjustments to text embeddings of input prompts are sufficient to re-trigger
data replication, highlighting the fragility of these defenses. Furthermore, we
challenge the fundamental assumption of memorization locality, by showing that
replication can be triggered from diverse locations within the text embedding
space, and follows different paths in the model. Our findings indicate that
existing mitigation strategies are insufficient and underscore the need for
methods that truly remove memorized content, rather than attempting to suppress
its retrieval. As a first step in this direction, we introduce a novel
adversarial fine-tuning method that iteratively searches for replication
triggers and updates the model to increase robustness. Through our research, we
provide fresh insights into the nature of memorization in text-to-image DMs and
a foundation for building more trustworthy and compliant generative AI.