Trovare Dori: La memorizzazione nei modelli di diffusione testo-immagine è meno localizzata di quanto si pensi

Abstract

I modelli di diffusione testo-immagine (DMs) hanno ottenuto un notevole successo nella generazione di immagini. Tuttavia, persistono preoccupazioni riguardanti la privacy dei dati e la proprietà intellettuale a causa della loro potenziale capacità di memorizzare e replicare involontariamente i dati di addestramento. Recenti sforzi di mitigazione si sono concentrati sull'identificazione e la rimozione dei pesi responsabili dell'innesco della replicazione, basandosi sull'assunzione che la memorizzazione possa essere localizzata. La nostra ricerca valuta la robustezza di questi approcci basati sulla rimozione dei pesi. Dimostriamo che, anche dopo la rimozione, piccoli aggiustamenti agli embedding testuali degli input sono sufficienti per riattivare la replicazione dei dati, evidenziando la fragilità di queste difese. Inoltre, mettiamo in discussione l'assunzione fondamentale della località della memorizzazione, mostrando che la replicazione può essere attivata da diverse posizioni all'interno dello spazio degli embedding testuali e segue percorsi diversi nel modello. Le nostre scoperte indicano che le strategie di mitigazione esistenti sono insufficienti e sottolineano la necessità di metodi che rimuovano veramente i contenuti memorizzati, piuttosto che tentare di sopprimerne il recupero. Come primo passo in questa direzione, introduciamo un nuovo metodo di fine-tuning avversario che ricerca iterativamente i trigger di replicazione e aggiorna il modello per aumentarne la robustezza. Attraverso la nostra ricerca, forniamo nuove intuizioni sulla natura della memorizzazione nei DMs testo-immagine e una base per costrure un'IA generativa più affidabile e conforme.

English

Text-to-image diffusion models (DMs) have achieved remarkable success in image generation. However, concerns about data privacy and intellectual property remain due to their potential to inadvertently memorize and replicate training data. Recent mitigation efforts have focused on identifying and pruning weights responsible for triggering replication, based on the assumption that memorization can be localized. Our research assesses the robustness of these pruning-based approaches. We demonstrate that even after pruning, minor adjustments to text embeddings of input prompts are sufficient to re-trigger data replication, highlighting the fragility of these defenses. Furthermore, we challenge the fundamental assumption of memorization locality, by showing that replication can be triggered from diverse locations within the text embedding space, and follows different paths in the model. Our findings indicate that existing mitigation strategies are insufficient and underscore the need for methods that truly remove memorized content, rather than attempting to suppress its retrieval. As a first step in this direction, we introduce a novel adversarial fine-tuning method that iteratively searches for replication triggers and updates the model to increase robustness. Through our research, we provide fresh insights into the nature of memorization in text-to-image DMs and a foundation for building more trustworthy and compliant generative AI.

Trovare Dori: La memorizzazione nei modelli di diffusione testo-immagine è meno localizzata di quanto si pensi

Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed

Abstract

Support