ChatPaper.aiChatPaper

TRCE:テキストから画像への拡散モデルにおける信頼性の高い悪意ある概念の消去に向けて

TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models

March 10, 2025
著者: Ruidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu
cs.AI

要旨

テキストから画像への拡散モデルの最近の進歩により、フォトリアルな画像生成が可能になりましたが、NSFW画像などの悪意のあるコンテンツを生成するリスクもあります。このリスクを軽減するため、特定の概念をモデルに「忘れさせる」概念消去手法が研究されています。しかし、現在の研究では、プロンプトに暗黙的に埋め込まれた悪意のある概念(例:比喩的表現や敵対的プロンプト)を完全に消去しつつ、モデルの通常の生成能力を維持することが困難です。この課題に対処するため、本研究ではTRCEを提案し、二段階の概念消去戦略を用いて、信頼性のある消去と知識の保存の間の効果的なトレードオフを実現します。まず、TRCEはテキストプロンプトに暗黙的に埋め込まれた悪意のある意味を消去することから始めます。重要なマッピング目標(すなわち、[EoT]埋め込み)を特定し、クロスアテンションレイヤーを最適化して、悪意のあるプロンプトを文脈的に類似したが安全な概念を持つプロンプトにマッピングします。このステップにより、ノイズ除去プロセス中にモデルが悪意のある意味に過度に影響されるのを防ぎます。その後、拡散モデルのサンプリング軌跡の決定論的特性を考慮し、TRCEはコントラスティブ学習を通じて、初期のノイズ除去予測を安全な方向に向け、安全でない方向から遠ざけることで、悪意のあるコンテンツの生成をさらに回避します。最後に、TRCEを複数の悪意のある概念消去ベンチマークで包括的に評価し、その結果、悪意のある概念を消去しつつモデルの元の生成能力をより良く維持する効果が実証されました。コードは以下で公開されています:http://github.com/ddgoodgood/TRCE。注意:本論文には、攻撃的な内容を含む可能性のあるモデル生成コンテンツが含まれています。
English
Recent advances in text-to-image diffusion models enable photorealistic image generation, but they also risk producing malicious content, such as NSFW images. To mitigate risk, concept erasure methods are studied to facilitate the model to unlearn specific concepts. However, current studies struggle to fully erase malicious concepts implicitly embedded in prompts (e.g., metaphorical expressions or adversarial prompts) while preserving the model's normal generation capability. To address this challenge, our study proposes TRCE, using a two-stage concept erasure strategy to achieve an effective trade-off between reliable erasure and knowledge preservation. Firstly, TRCE starts by erasing the malicious semantics implicitly embedded in textual prompts. By identifying a critical mapping objective(i.e., the [EoT] embedding), we optimize the cross-attention layers to map malicious prompts to contextually similar prompts but with safe concepts. This step prevents the model from being overly influenced by malicious semantics during the denoising process. Following this, considering the deterministic properties of the sampling trajectory of the diffusion model, TRCE further steers the early denoising prediction toward the safe direction and away from the unsafe one through contrastive learning, thus further avoiding the generation of malicious content. Finally, we conduct comprehensive evaluations of TRCE on multiple malicious concept erasure benchmarks, and the results demonstrate its effectiveness in erasing malicious concepts while better preserving the model's original generation ability. The code is available at: http://github.com/ddgoodgood/TRCE. CAUTION: This paper includes model-generated content that may contain offensive material.

Summary

AI-Generated Summary

PDF31March 11, 2025