ChatPaper.aiChatPaper

M-ErasureBench:拡散モデルにおける概念消去のための包括的多モーダル評価ベンチマーク

M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

December 28, 2025
著者: Ju-Hsuan Weng, Jia-Wei Liao, Cheng-Fu Chou, Jun-Cheng Chen
cs.AI

要旨

テキストから画像への拡散モデルは、有害または著作権で保護されたコンテンツを生成する可能性があり、概念消去に関する研究の動機となっている。しかし、既存のアプローチは主にテキストプロンプトからの概念消去に焦点を当てており、画像編集やパーソナライズ生成といった実世界アプリケーションで重要性を増している他の入力モダリティを見過ごしている。これらのモダリティは攻撃対象となり得、防御策があるにもかかわらず消去された概念が再出現する可能性がある。このギャップを埋めるため、我々はM-ErasureBenchを提案する。これは、テキストプロンプト、学習済み埋め込み、反転潜在表現という3つの入力モダリティにわたって概念消去手法を体系的に評価する新しいマルチモーダル評価フレームワークである。後者2つについては、ホワイトボックスアクセスとブラックボックスアクセスの両方を評価し、5つの評価シナリオを構築した。分析の結果、既存手法はテキストプロンプトに対する消去性能は高いが、学習済み埋め込みと反転潜在表現に対してはほぼ失敗し、ホワイトボックス設定では概念再現率(CRR)が90%を超えることが明らかになった。これらの脆弱性に対処するため、我々はIRECE(推論時頑健性強化型概念消去)を提案する。これは、クロスアテンションを通じて対象概念を局在化し、デノイジング過程で関連する潜在表現を摂動させるプラグアンドプレイモジュールである。実験により、IRECEが頑健性を一貫して回復させ、最も困難なホワイトボックス潜在反転シナリオにおいてCRRを最大40%低減しつつ、視覚的品質を維持することが実証された。我々の知る限り、M-ErasureBenchはテキストプロンプトを超えた概念消去の初の包括的ベンチマークを提供する。IRECEとともに、本ベンチマークはより信頼性の高い保護的生成モデル構築のための実用的な保護策を提供する。
English
Text-to-image diffusion models may generate harmful or copyrighted content, motivating research on concept erasure. However, existing approaches primarily focus on erasing concepts from text prompts, overlooking other input modalities that are increasingly critical in real-world applications such as image editing and personalized generation. These modalities can become attack surfaces, where erased concepts re-emerge despite defenses. To bridge this gap, we introduce M-ErasureBench, a novel multimodal evaluation framework that systematically benchmarks concept erasure methods across three input modalities: text prompts, learned embeddings, and inverted latents. For the latter two, we evaluate both white-box and black-box access, yielding five evaluation scenarios. Our analysis shows that existing methods achieve strong erasure performance against text prompts but largely fail under learned embeddings and inverted latents, with Concept Reproduction Rate (CRR) exceeding 90% in the white-box setting. To address these vulnerabilities, we propose IRECE (Inference-time Robustness Enhancement for Concept Erasure), a plug-and-play module that localizes target concepts via cross-attention and perturbs the associated latents during denoising. Experiments demonstrate that IRECE consistently restores robustness, reducing CRR by up to 40% under the most challenging white-box latent inversion scenario, while preserving visual quality. To the best of our knowledge, M-ErasureBench provides the first comprehensive benchmark of concept erasure beyond text prompts. Together with IRECE, our benchmark offers practical safeguards for building more reliable protective generative models.
PDF02January 7, 2026