M-ErasureBench : Un benchmark d'évaluation multimodal complet pour l'effacement de concepts dans les modèles de diffusion
M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models
December 28, 2025
papers.authors: Ju-Hsuan Weng, Jia-Wei Liao, Cheng-Fu Chou, Jun-Cheng Chen
cs.AI
papers.abstract
Les modèles de diffusion texte-image peuvent générer du contenu préjudiciable ou protégé par des droits d'auteur, ce qui motive la recherche sur l'effacement de concepts. Cependant, les approches existantes se concentrent principalement sur l'effacement des concepts à partir d'invites textuelles, négligeant d'autres modalités d'entrée qui deviennent de plus en plus critiques dans les applications réelles telles que la retouche d'image et la génération personnalisée. Ces modalités peuvent devenir des surfaces d'attaque, où les concepts effacés réapparaissent malgré les défenses. Pour combler cette lacune, nous présentons M-ErasureBench, un nouveau cadre d'évaluation multimodal qui évalue systématiquement les méthodes d'effacement de concepts sur trois modalités d'entrée : les invites textuelles, les plongements appris et les latents inversés. Pour les deux dernières, nous évaluons à la fois l'accès en boîte blanche et en boîte noire, ce qui donne cinq scénarios d'évaluation. Notre analyse montre que les méthodes existantes obtiennent de bonnes performances d'effacement contre les invites textuelles, mais échouent largement face aux plongements appris et aux latents inversés, avec un Taux de Reproduction de Concept (CRR) dépassant 90% dans le scénario en boîte blanche. Pour remédier à ces vulnérabilités, nous proposons IRECE (Amélioration de la Robustesse au Temps de l'Inférence pour l'Effacement de Concept), un module plug-and-play qui localise les concepts cibles via l'attention croisée et perturbe les latents associés pendant le débruitage. Les expériences démontrent qu'IRECE rétablit constamment la robustesse, réduisant le CRR jusqu'à 40% dans le scénario le plus difficile d'inversion de latent en boîte blanche, tout en préservant la qualité visuelle. À notre connaissance, M-ErasureBench constitue le premier benchmark complet pour l'effacement de concepts au-delà des invites textuelles. Avec IRECE, notre benchmark offre des garanties pratiques pour construire des modèles génératifs de protection plus fiables.
English
Text-to-image diffusion models may generate harmful or copyrighted content, motivating research on concept erasure. However, existing approaches primarily focus on erasing concepts from text prompts, overlooking other input modalities that are increasingly critical in real-world applications such as image editing and personalized generation. These modalities can become attack surfaces, where erased concepts re-emerge despite defenses. To bridge this gap, we introduce M-ErasureBench, a novel multimodal evaluation framework that systematically benchmarks concept erasure methods across three input modalities: text prompts, learned embeddings, and inverted latents. For the latter two, we evaluate both white-box and black-box access, yielding five evaluation scenarios. Our analysis shows that existing methods achieve strong erasure performance against text prompts but largely fail under learned embeddings and inverted latents, with Concept Reproduction Rate (CRR) exceeding 90% in the white-box setting. To address these vulnerabilities, we propose IRECE (Inference-time Robustness Enhancement for Concept Erasure), a plug-and-play module that localizes target concepts via cross-attention and perturbs the associated latents during denoising. Experiments demonstrate that IRECE consistently restores robustness, reducing CRR by up to 40% under the most challenging white-box latent inversion scenario, while preserving visual quality. To the best of our knowledge, M-ErasureBench provides the first comprehensive benchmark of concept erasure beyond text prompts. Together with IRECE, our benchmark offers practical safeguards for building more reliable protective generative models.