ChatPaper.aiChatPaper

캡틴(CAPTAIN): 텍스트-이미지 확산 모델의 암기화 완화를 위한 의미론적 특징 주입

CAPTAIN: Semantic Feature Injection for Memorization Mitigation in Text-to-Image Diffusion Models

December 11, 2025
저자: Tong Zhang, Carlos Hinojosa, Bernard Ghanem
cs.AI

초록

확산 모델은 훈련 데이터를 의도치 않게 재생산할 수 있어, 이러한 시스템이 대규모로 배포됨에 따라 개인정보 보호 및 저작권 문제가 제기되고 있다. 기존의 추론 단계 완화 방법들은 일반적으로 classifier-free guidance(CFG)를 조작하거나 프롬프트 임베딩에 잡음을 추가하지만, 조건부 프롬프트와의 정합성을 해치지 않으면서 암기 현상을 줄이는 데는 어려움을 겪는다. 본 연구에서는 디노이징 과정에서 잠재 특징을 직접 수정하여 암기 현상을 완화하는 학습 불필요 프레임워크인 CAPTAIN을 소개한다. CAPTAIN은 먼저 주파수 기반 노이즈 초기화를 적용하여 디노이징 과정 초기에 암기된 패턴을 복제하려는 경향을 줄인다. 이후 특징 주입에 최적인 디노이징 타임스텝을 식별하고 암기된 영역을 지역화한다. 마지막으로 CAPTAIN은 암기되지 않은 참조 이미지에서 의미론적으로 정합된 특징을 지역화된 잠재 공간에 주입함으로써 프롬프트 충실도와 시각적 품질을 유지하면서 암기 현상을 억제한다. 실험 결과, CAPTAIN은 CFG 기반 베이스라인 대비 암기 현상을 상당히 줄이면서도 의도된 프롬프트와의 강력한 정합성을 유지하는 것으로 나타났다.
English
Diffusion models can unintentionally reproduce training examples, raising privacy and copyright concerns as these systems are increasingly deployed at scale. Existing inference-time mitigation methods typically manipulate classifier-free guidance (CFG) or perturb prompt embeddings; however, they often struggle to reduce memorization without compromising alignment with the conditioning prompt. We introduce CAPTAIN, a training-free framework that mitigates memorization by directly modifying latent features during denoising. CAPTAIN first applies frequency-based noise initialization to reduce the tendency to replicate memorized patterns early in the denoising process. It then identifies the optimal denoising timesteps for feature injection and localizes memorized regions. Finally, CAPTAIN injects semantically aligned features from non-memorized reference images into localized latent regions, suppressing memorization while preserving prompt fidelity and visual quality. Our experiments show that CAPTAIN achieves substantial reductions in memorization compared to CFG-based baselines while maintaining strong alignment with the intended prompt.
PDF52December 17, 2025