ChatPaper.aiChatPaper

CAPTAIN: Iniezione di Caratteristiche Semantiche per la Mitigazione della Memorizzazione nei Modelli di Diffusione Testo-Immagine

CAPTAIN: Semantic Feature Injection for Memorization Mitigation in Text-to-Image Diffusion Models

December 11, 2025
Autori: Tong Zhang, Carlos Hinojosa, Bernard Ghanem
cs.AI

Abstract

I modelli di diffusione possono riprodurre involontariamente esempi di addestramento, sollevando preoccupazioni relative alla privacy e al copyright man mano che questi sistemi vengono implementati su larga scala. I metodi di mitigazione esistenti applicati durante l'inferenza tipicamente manipolano la guida senza classificatore (CFG) o perturbano gli embedding dei prompt; tuttavia, spesso faticano a ridurre la memorizzazione senza compromettere l'allineamento con il prompt condizionante. Introduciamo CAPTAIN, un framework che non richiede addestramento e mitiga la memorizzazione modificando direttamente le feature latenti durante il processo di denoising. CAPTAIN applica innanzitutto un'inizializzazione del rumore basata sulla frequenza per ridurre la tendenza a replicare pattern memorizzati nelle fasi iniziali del denoising. Identifica poi i timestep di denoising ottimali per l'iniezione di feature e localizza le regioni memorizzate. Infine, CAPTAIN inietta feature semanticamente allineate da immagini di riferimento non memorizzate nelle regioni latenti localizzate, sopprimendo la memorizzazione mentre preserva la fedeltà al prompt e la qualità visiva. I nostri esperimenti dimostrano che CAPTAIN raggiunge riduzioni sostanziali della memorizzazione rispetto ai baseline basati su CFG, mantenendo al contempo un forte allineamento con il prompt inteso.
English
Diffusion models can unintentionally reproduce training examples, raising privacy and copyright concerns as these systems are increasingly deployed at scale. Existing inference-time mitigation methods typically manipulate classifier-free guidance (CFG) or perturb prompt embeddings; however, they often struggle to reduce memorization without compromising alignment with the conditioning prompt. We introduce CAPTAIN, a training-free framework that mitigates memorization by directly modifying latent features during denoising. CAPTAIN first applies frequency-based noise initialization to reduce the tendency to replicate memorized patterns early in the denoising process. It then identifies the optimal denoising timesteps for feature injection and localizes memorized regions. Finally, CAPTAIN injects semantically aligned features from non-memorized reference images into localized latent regions, suppressing memorization while preserving prompt fidelity and visual quality. Our experiments show that CAPTAIN achieves substantial reductions in memorization compared to CFG-based baselines while maintaining strong alignment with the intended prompt.
PDF82December 19, 2025