M-ErasureBench: Een Uitgebreide Multimodale Evaluatiebenchmark voor Conceptverwijdering in Diffusiemodellen
M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models
December 28, 2025
Auteurs: Ju-Hsuan Weng, Jia-Wei Liao, Cheng-Fu Chou, Jun-Cheng Chen
cs.AI
Samenvatting
Tekst-naar-beeld diffusiemodellen kunnen schadelijke of auteursrechtelijk beschermde inhoud genereren, wat onderzoek naar het wissen van concepten motiveert. Bestaande benaderingen richten zich echter voornamelijk op het wissen van concepten uit tekstprompts, waarbij andere invoermodaliteiten over het hoofd worden gezien die in real-world toepassingen zoals beeldbewerking en gepersonaliseerde generatie steeds kritischer worden. Deze modaliteiten kunnen aanvalsoppervlakken worden, waar gewiste concepten opnieuw opduiken ondanks verdedigingsmaatregelen. Om deze kloof te overbruggen, introduceren we M-ErasureBench, een nieuw multimodaal evaluatieraamwerk dat conceptwis methoden systematisch benchmarkt over drie invoermodaliteiten: tekstprompts, aangeleerde embeddings en geïnverteerde latenties. Voor de laatste twee evalueren we zowel white-box als black-box toegang, wat vijf evaluatiescenario's oplevert. Onze analyse toont aan dat bestaande methoden sterke wisprestaties leveren tegen tekstprompts, maar grotendeels falen bij aangeleerde embeddings en geïnverteerde latenties, met een Concept Reproducatie Ratio (CRR) van meer dan 90% in de white-box setting. Om deze kwetsbaarheden aan te pakken, stellen we IRECE voor (Inference-time Robustness Enhancement for Concept Erasure), een plug-and-play module die doelconcepten lokaliseert via cross-attention en de bijbehorende latenties verstoort tijdens denoisen. Experimenten tonen aan dat IRECE consistent robuustheid herstelt, de CRR met tot 40% reduceert in het meest uitdagende white-box latentie-inversiescenario, terwijl de visuele kwaliteit behouden blijft. Voor zover wij weten, biedt M-ErasureBench de eerste uitgebreide benchmark voor het wissen van concepten voorbij tekstprompts. Samen met IRECE biedt onze benchmark praktische waarborgen voor het bouwen van betrouwbaardere beschermende generatieve modellen.
English
Text-to-image diffusion models may generate harmful or copyrighted content, motivating research on concept erasure. However, existing approaches primarily focus on erasing concepts from text prompts, overlooking other input modalities that are increasingly critical in real-world applications such as image editing and personalized generation. These modalities can become attack surfaces, where erased concepts re-emerge despite defenses. To bridge this gap, we introduce M-ErasureBench, a novel multimodal evaluation framework that systematically benchmarks concept erasure methods across three input modalities: text prompts, learned embeddings, and inverted latents. For the latter two, we evaluate both white-box and black-box access, yielding five evaluation scenarios. Our analysis shows that existing methods achieve strong erasure performance against text prompts but largely fail under learned embeddings and inverted latents, with Concept Reproduction Rate (CRR) exceeding 90% in the white-box setting. To address these vulnerabilities, we propose IRECE (Inference-time Robustness Enhancement for Concept Erasure), a plug-and-play module that localizes target concepts via cross-attention and perturbs the associated latents during denoising. Experiments demonstrate that IRECE consistently restores robustness, reducing CRR by up to 40% under the most challenging white-box latent inversion scenario, while preserving visual quality. To the best of our knowledge, M-ErasureBench provides the first comprehensive benchmark of concept erasure beyond text prompts. Together with IRECE, our benchmark offers practical safeguards for building more reliable protective generative models.