M-ErasureBench: Um Benchmark Abrangente de Avaliação Multimodal para Apagamento de Conceitos em Modelos de Difusão

Resumo

Os modelos de difusão texto-imagem podem gerar conteúdo nocivo ou protegido por direitos autorais, motivando pesquisas sobre a eliminação de conceitos. No entanto, as abordagens existentes concentram-se principalmente na eliminação de conceitos a partir de prompts de texto, negligenciando outras modalidades de entrada que são cada vez mais críticas em aplicações do mundo real, como edição de imagens e geração personalizada. Essas modalidades podem se tornar superfícies de ataque, onde conceitos eliminados ressurgem apesar das defesas. Para preencher essa lacuna, apresentamos o M-ErasureBench, uma nova estrutura de avaliação multimodal que avalia sistematicamente métodos de eliminação de conceitos em três modalidades de entrada: prompts de texto, *embeddings* aprendidos e latentes invertidos. Para as duas últimas, avaliamos tanto o acesso em caixa-branca quanto em caixa-preta, resultando em cinco cenários de avaliação. Nossa análise mostra que os métodos existentes alcançam um forte desempenho de eliminação contra prompts de texto, mas falham amplamente sob *embeddings* aprendidos e latentes invertidos, com uma Taxa de Reprodução de Conceitos (CRR) superior a 90% no cenário de caixa-branca. Para abordar essas vulnerabilidades, propomos o IRECE (*Inference-time Robustness Enhancement for Concept Erasure*), um módulo *plug-and-play* que localiza conceitos-alvo por meio de atenção cruzada e perturba os latentes associados durante a remoção de ruído. Experimentos demonstram que o IRECE restaura consistentemente a robustez, reduzindo a CRR em até 40% no cenário mais desafiador de inversão latente em caixa-branca, preservando a qualidade visual. Até onde sabemos, o M-ErasureBench fornece o primeiro benchmark abrangente de eliminação de conceitos além dos prompts de texto. Juntamente com o IRECE, nosso benchmark oferece salvaguardas práticas para a construção de modelos generativos protetores mais confiáveis.

English

Text-to-image diffusion models may generate harmful or copyrighted content, motivating research on concept erasure. However, existing approaches primarily focus on erasing concepts from text prompts, overlooking other input modalities that are increasingly critical in real-world applications such as image editing and personalized generation. These modalities can become attack surfaces, where erased concepts re-emerge despite defenses. To bridge this gap, we introduce M-ErasureBench, a novel multimodal evaluation framework that systematically benchmarks concept erasure methods across three input modalities: text prompts, learned embeddings, and inverted latents. For the latter two, we evaluate both white-box and black-box access, yielding five evaluation scenarios. Our analysis shows that existing methods achieve strong erasure performance against text prompts but largely fail under learned embeddings and inverted latents, with Concept Reproduction Rate (CRR) exceeding 90% in the white-box setting. To address these vulnerabilities, we propose IRECE (Inference-time Robustness Enhancement for Concept Erasure), a plug-and-play module that localizes target concepts via cross-attention and perturbs the associated latents during denoising. Experiments demonstrate that IRECE consistently restores robustness, reducing CRR by up to 40% under the most challenging white-box latent inversion scenario, while preserving visual quality. To the best of our knowledge, M-ErasureBench provides the first comprehensive benchmark of concept erasure beyond text prompts. Together with IRECE, our benchmark offers practical safeguards for building more reliable protective generative models.

M-ErasureBench: Um Benchmark Abrangente de Avaliação Multimodal para Apagamento de Conceitos em Modelos de Difusão

M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

Resumo

Support