ChatPaper.aiChatPaper

CAPTAIN: Инъекция семантических признаков для снижения запоминания в диффузионных моделях генерации изображений по тексту

CAPTAIN: Semantic Feature Injection for Memorization Mitigation in Text-to-Image Diffusion Models

December 11, 2025
Авторы: Tong Zhang, Carlos Hinojosa, Bernard Ghanem
cs.AI

Аннотация

Модели диффузии могут непреднамеренно воспроизводить примеры из обучающих данных, что вызывает опасения в отношении конфиденциальности и авторских прав по мере масштабирования их применения. Существующие методы снижения рисков на этапе вывода обычно манипулируют классификаторно-независимой guidance (CFG) или добавляют шум к эмбеддингам промптов; однако они часто не способны эффективно снижать запоминание данных без ущерба для соответствия условию промпта. Мы представляем CAPTAIN — не требующий дообучения фреймворк, который снижает запоминание за счет прямой модификации латентных признаков в процессе денойзинга. CAPTAIN сначала применяет частотную инициализацию шума, чтобы уменьшить тенденцию к воспроизведению запомненных паттернов на ранних этапах денойзинга. Затем он определяет оптимальные временные шаги для инжекции признаков и локализует запомненные области. Наконец, CAPTAIN инжектирует семантически согласованные признаки из незапомненных референсных изображений в локализованные латентные области, подавляя запоминание при сохранении соответствия промпту и визуального качества. Наши эксперименты показывают, что CAPTAIN достигает значительного снижения запоминания по сравнению с базовыми методами на основе CFG, сохраняя при этом высокое соответствие целевому промпту.
English
Diffusion models can unintentionally reproduce training examples, raising privacy and copyright concerns as these systems are increasingly deployed at scale. Existing inference-time mitigation methods typically manipulate classifier-free guidance (CFG) or perturb prompt embeddings; however, they often struggle to reduce memorization without compromising alignment with the conditioning prompt. We introduce CAPTAIN, a training-free framework that mitigates memorization by directly modifying latent features during denoising. CAPTAIN first applies frequency-based noise initialization to reduce the tendency to replicate memorized patterns early in the denoising process. It then identifies the optimal denoising timesteps for feature injection and localizes memorized regions. Finally, CAPTAIN injects semantically aligned features from non-memorized reference images into localized latent regions, suppressing memorization while preserving prompt fidelity and visual quality. Our experiments show that CAPTAIN achieves substantial reductions in memorization compared to CFG-based baselines while maintaining strong alignment with the intended prompt.
PDF52December 17, 2025