M-ErasureBench: Un Benchmark di Valutazione Multimodale Completo per la Cancellazione di Concetti nei Modelli di Diffusione

Abstract

I modelli di diffusione text-to-image possono generare contenuti dannosi o protetti da copyright, motivando la ricerca sulla cancellazione concettuale. Tuttavia, gli approcci esistenti si concentrano principalmente sulla cancellazione di concetti dai prompt testuali, trascurando altre modalità di input che stanno diventando sempre più critiche in applicazioni reali come l'editing di immagini e la generazione personalizzata. Queste modalità possono diventare superfici di attacco, dove i concetti cancellati riemergono nonostante le difese. Per colmare questa lacuna, introduciamo M-ErasureBench, un nuovo framework di valutazione multimodale che confronta sistematicamente i metodi di cancellazione concettuale attraverso tre modalità di input: prompt testuali, embedding appresi e latenti invertiti. Per le ultime due, valutiamo sia l'accesso white-box che black-box, ottenendo cinque scenari di valutazione. La nostra analisi mostra che i metodi esistenti ottengono prestazioni di cancellazione elevate contro i prompt testuali, ma falliscono in gran parte con gli embedding appresi e i latenti invertiti, con un Tasso di Riproduzione del Concetto (CRR) superiore al 90% in condizioni white-box. Per affrontare queste vulnerabilità, proponiamo IRECE (Miglioramento della Robustezza al Tempo di Inferenza per la Cancellazione Concettuale), un modulo plug-and-play che localizza i concetti target tramite cross-attention e perturba i latenti associati durante la denoising. Gli esperimenti dimostrano che IRECE ripristina costantemente la robustezza, riducendo il CRR fino al 40% nello scenario più impegnativo di inversione latente white-box, preservando al contempo la qualità visiva. Per quanto a nostra conoscenza, M-ErasureBench fornisce il primo benchmark completo per la cancellazione concettuale al di là dei prompt testuali. Insieme a IRECE, il nostro benchmark offre salvaguardie pratiche per costruire modelli generativi protettivi più affidabili.

English

Text-to-image diffusion models may generate harmful or copyrighted content, motivating research on concept erasure. However, existing approaches primarily focus on erasing concepts from text prompts, overlooking other input modalities that are increasingly critical in real-world applications such as image editing and personalized generation. These modalities can become attack surfaces, where erased concepts re-emerge despite defenses. To bridge this gap, we introduce M-ErasureBench, a novel multimodal evaluation framework that systematically benchmarks concept erasure methods across three input modalities: text prompts, learned embeddings, and inverted latents. For the latter two, we evaluate both white-box and black-box access, yielding five evaluation scenarios. Our analysis shows that existing methods achieve strong erasure performance against text prompts but largely fail under learned embeddings and inverted latents, with Concept Reproduction Rate (CRR) exceeding 90% in the white-box setting. To address these vulnerabilities, we propose IRECE (Inference-time Robustness Enhancement for Concept Erasure), a plug-and-play module that localizes target concepts via cross-attention and perturbs the associated latents during denoising. Experiments demonstrate that IRECE consistently restores robustness, reducing CRR by up to 40% under the most challenging white-box latent inversion scenario, while preserving visual quality. To the best of our knowledge, M-ErasureBench provides the first comprehensive benchmark of concept erasure beyond text prompts. Together with IRECE, our benchmark offers practical safeguards for building more reliable protective generative models.

M-ErasureBench: Un Benchmark di Valutazione Multimodale Completo per la Cancellazione di Concetti nei Modelli di Diffusione

M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

Abstract

Support