ChatPaper.aiChatPaper

KAPITÄN: Semantische Feature-Injektion zur Minderung von Memorierung in Text-zu-Bild-Diffusionsmodellen

CAPTAIN: Semantic Feature Injection for Memorization Mitigation in Text-to-Image Diffusion Models

December 11, 2025
papers.authors: Tong Zhang, Carlos Hinojosa, Bernard Ghanem
cs.AI

papers.abstract

Diffusionsmodelle können unbeabsichtigt Trainingsbeispiele reproduzieren, was Datenschutz- und Urheberrechtsbedenken aufwirft, da diese Systeme zunehmend in großem Maßstab eingesetzt werden. Bestehende Methoden zur Minderung dieser Effekte zur Inferenzzeit manipulieren typischerweise den klassifikatorfreien Führungsmechanismus (CFG) oder stören Prompt-Einbettungen; jedoch haben sie oft Schwierigkeiten, Memorierung zu reduzieren, ohne die Ausrichtung an den konditionierenden Prompt zu beeinträchtigen. Wir stellen CAPTAIN vor, ein trainierungsfreies Framework, das Memorierung mildert, indem es latente Merkmale während der Entrauschung direkt modifiziert. CAPTAIN wendet zunächst eine frequenzbasierte Rauschinitialisierung an, um die Tendenz zur Replikation memorierter Muster früh im Entrauschungsprozess zu verringern. Anschließend identifiziert es die optimalen Entrauschungs-Zeitschritte für Merkmalsinjektion und lokalisiert memorierte Regionen. Schließlich injiziert CAPTAIN semantisch passende Merkmale aus nicht-memorierten Referenzbildern in lokalisierte latente Regionen, unterdrückt so Memorierung und erhält dabei Prompt-Treue und visuelle Qualität. Unsere Experimente zeigen, dass CAPTAIN im Vergleich zu CFG-basierten Baseline-Methoden eine wesentliche Verringerung der Memorierung erreicht und gleichzeitig eine starke Ausrichtung am beabsichtigten Prompt beibehält.
English
Diffusion models can unintentionally reproduce training examples, raising privacy and copyright concerns as these systems are increasingly deployed at scale. Existing inference-time mitigation methods typically manipulate classifier-free guidance (CFG) or perturb prompt embeddings; however, they often struggle to reduce memorization without compromising alignment with the conditioning prompt. We introduce CAPTAIN, a training-free framework that mitigates memorization by directly modifying latent features during denoising. CAPTAIN first applies frequency-based noise initialization to reduce the tendency to replicate memorized patterns early in the denoising process. It then identifies the optimal denoising timesteps for feature injection and localizes memorized regions. Finally, CAPTAIN injects semantically aligned features from non-memorized reference images into localized latent regions, suppressing memorization while preserving prompt fidelity and visual quality. Our experiments show that CAPTAIN achieves substantial reductions in memorization compared to CFG-based baselines while maintaining strong alignment with the intended prompt.
PDF52December 17, 2025