M-ErasureBench: Un Benchmark de Evaluación Multimodal Integral para el Borrado de Conceptos en Modelos de Difusión
M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models
December 28, 2025
Autores: Ju-Hsuan Weng, Jia-Wei Liao, Cheng-Fu Chou, Jun-Cheng Chen
cs.AI
Resumen
Los modelos de difusión de texto a imagen pueden generar contenido dañino o protegido por derechos de autor, lo que motiva la investigación sobre el borrado de conceptos. Sin embargo, los enfoques existentes se centran principalmente en borrar conceptos de los textos de entrada, pasando por alto otras modalidades de entrada que son cada vez más críticas en aplicaciones del mundo real, como la edición de imágenes y la generación personalizada. Estas modalidades pueden convertirse en superficies de ataque, donde los conceptos borrados resurgen a pesar de las defensas. Para cerrar esta brecha, presentamos M-ErasureBench, un novedoso marco de evaluación multimodal que evalúa sistemáticamente los métodos de borrado de conceptos en tres modalidades de entrada: textos de entrada, *embeddings* aprendidos y latentes invertidos. Para los dos últimos, evaluamos tanto el acceso de caja blanca como de caja negra, dando lugar a cinco escenarios de evaluación. Nuestro análisis muestra que los métodos existentes logran un fuerte rendimiento de borrado contra textos de entrada, pero fracasan en gran medida con *embeddings* aprendidos y latentes invertidos, con una Tasa de Reproducción de Conceptos (CRR) superior al 90% en el entorno de caja blanca. Para abordar estas vulnerabilidades, proponemos IRECE (Mejora de Robustez en Tiempo de Inferencia para el Borrado de Conceptos), un módulo *plug-and-play* que localiza conceptos objetivo mediante atención cruzada y perturba los latentes asociados durante la eliminación de ruido. Los experimentos demuestran que IRECE restaura consistentemente la robustez, reduciendo la CRR hasta en un 40% en el escenario más desafiante de inversión latente de caja blanca, preservando la calidad visual. Hasta donde sabemos, M-ErasureBench proporciona el primer punto de referencia integral para el borrado de conceptos más allá de los textos de entrada. Junto con IRECE, nuestro benchmark ofrece salvaguardas prácticas para construir modelos generativos de protección más confiables.
English
Text-to-image diffusion models may generate harmful or copyrighted content, motivating research on concept erasure. However, existing approaches primarily focus on erasing concepts from text prompts, overlooking other input modalities that are increasingly critical in real-world applications such as image editing and personalized generation. These modalities can become attack surfaces, where erased concepts re-emerge despite defenses. To bridge this gap, we introduce M-ErasureBench, a novel multimodal evaluation framework that systematically benchmarks concept erasure methods across three input modalities: text prompts, learned embeddings, and inverted latents. For the latter two, we evaluate both white-box and black-box access, yielding five evaluation scenarios. Our analysis shows that existing methods achieve strong erasure performance against text prompts but largely fail under learned embeddings and inverted latents, with Concept Reproduction Rate (CRR) exceeding 90% in the white-box setting. To address these vulnerabilities, we propose IRECE (Inference-time Robustness Enhancement for Concept Erasure), a plug-and-play module that localizes target concepts via cross-attention and perturbs the associated latents during denoising. Experiments demonstrate that IRECE consistently restores robustness, reducing CRR by up to 40% under the most challenging white-box latent inversion scenario, while preserving visual quality. To the best of our knowledge, M-ErasureBench provides the first comprehensive benchmark of concept erasure beyond text prompts. Together with IRECE, our benchmark offers practical safeguards for building more reliable protective generative models.