ChatPaper.aiChatPaper

CAPTAIN: テキストから画像への拡散モデルにおける記憶化緩和のための意味的特徴注入

CAPTAIN: Semantic Feature Injection for Memorization Mitigation in Text-to-Image Diffusion Models

December 11, 2025
著者: Tong Zhang, Carlos Hinojosa, Bernard Ghanem
cs.AI

要旨

拡散モデルは、意図せず学習事例を再現する可能性があり、これらのシステムが大規模に展開されるにつれて、プライバシーや著作権上の懸念が高まっている。既存の推論時緩和手法は、主に分類器不要ガイダンス(CFG)の操作やプロンプト埋め込みの摂動に依存するが、条件付けプロンプトとの整合性を損なうことなく記憶再生を抑制することに課題を残す。本論文では、非復号化過程における潜在特徴の直接修正により記憶再生を緩和する、学習不要フレームワークCAPTAINを提案する。CAPTAINはまず、周波数ベースのノイズ初期化を適用し、復号化過程の初期段階で記憶パターンを複製する傾向を低減する。次に、特徴注入に最適な復号化タイムステップを特定し、記憶領域を局所化する。最後に、非記憶参照画像から意味的に整合した特徴を局所化された潜在領域に注入し、プロンプトの忠実性と視覚的品質を維持しながら記憶再生を抑制する。実験結果から、CAPTAINはCFGベースのベースラインと比較して記憶再生を大幅に低減しつつ、意図されたプロンプトとの強固な整合性を維持できることを示す。
English
Diffusion models can unintentionally reproduce training examples, raising privacy and copyright concerns as these systems are increasingly deployed at scale. Existing inference-time mitigation methods typically manipulate classifier-free guidance (CFG) or perturb prompt embeddings; however, they often struggle to reduce memorization without compromising alignment with the conditioning prompt. We introduce CAPTAIN, a training-free framework that mitigates memorization by directly modifying latent features during denoising. CAPTAIN first applies frequency-based noise initialization to reduce the tendency to replicate memorized patterns early in the denoising process. It then identifies the optimal denoising timesteps for feature injection and localizes memorized regions. Finally, CAPTAIN injects semantically aligned features from non-memorized reference images into localized latent regions, suppressing memorization while preserving prompt fidelity and visual quality. Our experiments show that CAPTAIN achieves substantial reductions in memorization compared to CFG-based baselines while maintaining strong alignment with the intended prompt.
PDF52December 17, 2025