KAPITEIN: Semantische Kenmerkinjectie voor Vermindering van Memorisatie in Tekst-naar-Beeld Diffusiemodellen
CAPTAIN: Semantic Feature Injection for Memorization Mitigation in Text-to-Image Diffusion Models
December 11, 2025
Auteurs: Tong Zhang, Carlos Hinojosa, Bernard Ghanem
cs.AI
Samenvatting
Diffusiemodellen kunnen onbedoeld trainingsvoorbeelden reproduceren, wat privacy- en auteursrechtelijke zorgen oproept nu deze systemen steeds vaker op grote schaal worden ingezet. Bestaande mitigatiemethoden tijdens de inferentiefase manipuleren doorgaans classifier-free guidance (CFG) of verstoren prompt-embeddings; echter, ze slagen er vaak niet in om memorisatie te verminderen zonder de afstemming met de conditionerende prompt aan te tasten. Wij introduceren CAPTAIN, een trainingsvrij raamwerk dat memorisatie vermindert door direct latente kenmerken aan te passen tijdens de denoisingsstap. CAPTAIN past eerst op frequentie gebaseerde ruisinitialisatie toe om de neiging om gememoriseerde patronen na te bootsen vroeg in het denoisingsproces te verminderen. Vervolgens identificeert het de optimale denoising-tijdstappen voor kenmerkinjectie en lokaliseert het gememoriseerde regio's. Ten slotte injecteert CAPTAIN semantisch afgestemde kenmerken uit niet-gememoriseerde referentiebeelden in gelokaliseerde latente regio's, waardoor memorisatie wordt onderdrukt terwijl de prompttrouw en visuele kwaliteit behouden blijven. Onze experimenten tonen aan dat CAPTAIN een aanzienlijke vermindering van memorisatie bereikt in vergelijking met op CFG gebaseerde baseline-methoden, waarbij tevens een sterke afstemming met de beoogde prompt behouden blijft.
English
Diffusion models can unintentionally reproduce training examples, raising privacy and copyright concerns as these systems are increasingly deployed at scale. Existing inference-time mitigation methods typically manipulate classifier-free guidance (CFG) or perturb prompt embeddings; however, they often struggle to reduce memorization without compromising alignment with the conditioning prompt. We introduce CAPTAIN, a training-free framework that mitigates memorization by directly modifying latent features during denoising. CAPTAIN first applies frequency-based noise initialization to reduce the tendency to replicate memorized patterns early in the denoising process. It then identifies the optimal denoising timesteps for feature injection and localizes memorized regions. Finally, CAPTAIN injects semantically aligned features from non-memorized reference images into localized latent regions, suppressing memorization while preserving prompt fidelity and visual quality. Our experiments show that CAPTAIN achieves substantial reductions in memorization compared to CFG-based baselines while maintaining strong alignment with the intended prompt.