M-ErasureBench: Ein umfassender multimodaler Evaluierungsmaßstab für Konzeptlöschung in Diffusionsmodellen
M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models
December 28, 2025
papers.authors: Ju-Hsuan Weng, Jia-Wei Liao, Cheng-Fu Chou, Jun-Cheng Chen
cs.AI
papers.abstract
Text-to-Image-Diffusionsmodelle können schädliche oder urheberrechtlich geschützte Inhalte erzeugen, was Forschung zur Konzepterkennung motiviert. Bisherige Ansätze konzentrieren sich jedoch primär auf das Löschen von Konzepten aus Text-Prompts und vernachlässigen andere Eingabemodalitäten, die in realen Anwendungen wie Bildbearbeitung und personalisierter Generierung zunehmend kritisch sind. Diese Modalitäten können zu Angriffsflächen werden, auf denen gelöschte Konzepte trotz Verteidigungsmaßnahmen wieder auftauchen. Um diese Lücke zu schließen, führen wir M-ErasureBench ein, einen neuartigen multimodalen Evaluierungsrahmen, der Konzepterkennungsmethoden systematisch über drei Eingabemodalitäten hinweg vergleicht: Text-Prompts, gelernte Embeddings und invertierte Latents. Für die letzten beiden evaluieren wir sowohl White-Box- als auch Black-Box-Zugriff, was fünf Evaluierungsszenarien ergibt. Unsere Analyse zeigt, dass bestehende Methoden eine starke Löschleistung gegen Text-Prompts erreichen, aber weitgehend bei gelernten Embeddings und invertierten Latents versagen, wobei die Konzeptreproduktionsrate (CRR) im White-Box-Setting 90 % übersteigt. Um diese Schwachstellen zu adressieren, schlagen wir IRECE (Inference-time Robustness Enhancement for Concept Erasure) vor, ein Plug-and-Play-Modul, das Zielkonzepte via Cross-Attention lokalisiert und die zugehörigen Latents während der Denoisierung stört. Experimente zeigen, dass IRECE konsistent Robustheit wiederherstellt und die CRR im anspruchsvollsten White-Box-Latent-Inversionsszenario um bis zu 40 % reduziert, wobei die visuelle Qualität erhalten bleibt. Nach unserem Wissen bietet M-ErasureBench den ersten umfassenden Benchmark für Konzepterkennung über Text-Prompts hinaus. Zusammen mit IRECE bietet unser Benchmark praktische Schutzmaßnahmen für den Aufbau zuverlässigerer, schützender generativer Modelle.
English
Text-to-image diffusion models may generate harmful or copyrighted content, motivating research on concept erasure. However, existing approaches primarily focus on erasing concepts from text prompts, overlooking other input modalities that are increasingly critical in real-world applications such as image editing and personalized generation. These modalities can become attack surfaces, where erased concepts re-emerge despite defenses. To bridge this gap, we introduce M-ErasureBench, a novel multimodal evaluation framework that systematically benchmarks concept erasure methods across three input modalities: text prompts, learned embeddings, and inverted latents. For the latter two, we evaluate both white-box and black-box access, yielding five evaluation scenarios. Our analysis shows that existing methods achieve strong erasure performance against text prompts but largely fail under learned embeddings and inverted latents, with Concept Reproduction Rate (CRR) exceeding 90% in the white-box setting. To address these vulnerabilities, we propose IRECE (Inference-time Robustness Enhancement for Concept Erasure), a plug-and-play module that localizes target concepts via cross-attention and perturbs the associated latents during denoising. Experiments demonstrate that IRECE consistently restores robustness, reducing CRR by up to 40% under the most challenging white-box latent inversion scenario, while preserving visual quality. To the best of our knowledge, M-ErasureBench provides the first comprehensive benchmark of concept erasure beyond text prompts. Together with IRECE, our benchmark offers practical safeguards for building more reliable protective generative models.