M-ErasureBench: 확산 모델의 개념 삭제를 위한 종합적 다중모드 평가 벤치마크
M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models
December 28, 2025
저자: Ju-Hsuan Weng, Jia-Wei Liao, Cheng-Fu Chou, Jun-Cheng Chen
cs.AI
초록
텍스트-이미지 확산 모델이 유해하거나 저작권이 있는 콘텐츠를 생성할 수 있어 개념 삭제에 대한 연구가 활발히 진행되고 있습니다. 그러나 기존 접근법은 주로 텍스트 프롬프트에서 개념을 삭제하는 데 집중하여, 이미지 편집 및 개인화 생성과 같은 실제 애플리케이션에서 점점 더 중요해지고 있는 다른 입력 양식을 간과해 왔습니다. 이러한 양식은 방어 장치가 있음에도 삭제된 개념이 재발현될 수 있는 공격 표면이 될 수 있습니다. 이러한 격차를 해소하기 위해 본 연구에서는 세 가지 입력 양식(텍스트 프롬프트, 학습된 임베딩, 역전된 잠재 벡터)에 걸쳐 개념 삭제 방법을 체계적으로 벤치마킹하는 새로운 다중 양식 평가 프레임워크인 M-ErasureBench를 소개합니다. 후자 두 가지에 대해서는 화이트박스 및 블랙박스 접근 권한을 모두 평가하여 총 다섯 가지 평가 시나리오를 구성했습니다. 분석 결과, 기존 방법들은 텍스트 프롬프트에 대해서는 강력한 삭제 성능을 달성하지만, 학습된 임베딩과 역전된 잠재 벡터 상황에서는 대부분 실패하며, 화이트박스 설정에서 개념 재현률(CRR)이 90%를 초과하는 것으로 나타났습니다. 이러한 취약점을 해결하기 위해 우리는 추론 시점 개념 삭제 강건성 향상(IRECE) 모듈을 제안합니다. 이는 플러그 앤 플레이 모듈로, 크로스 어텐션을 통해 타겟 개념을 지역화하고 디노이징 과정에서 관련 잠재 벡터를 교란시킵니다. 실험 결과, IRECE는 가장 어려운 화이트박스 잠재 벡터 역전 시나리오에서 CRR을 최대 40%까지 감소시키며 시각적 품질을 유지하는 동시에 일관되게 강건성을 회복시키는 것으로 입증되었습니다. 우리가 알고 있는 바에 따르면, M-ErasureBench는 텍스트 프롬프트를 넘어선 개념 삭제에 대한 최초의 포괄적인 벤치마크를 제공합니다. IRECE와 함께, 우리의 벤치마크는 더 안정적인 보호 생성 모델 구축을 위한 실용적인 안전장치를 제시합니다.
English
Text-to-image diffusion models may generate harmful or copyrighted content, motivating research on concept erasure. However, existing approaches primarily focus on erasing concepts from text prompts, overlooking other input modalities that are increasingly critical in real-world applications such as image editing and personalized generation. These modalities can become attack surfaces, where erased concepts re-emerge despite defenses. To bridge this gap, we introduce M-ErasureBench, a novel multimodal evaluation framework that systematically benchmarks concept erasure methods across three input modalities: text prompts, learned embeddings, and inverted latents. For the latter two, we evaluate both white-box and black-box access, yielding five evaluation scenarios. Our analysis shows that existing methods achieve strong erasure performance against text prompts but largely fail under learned embeddings and inverted latents, with Concept Reproduction Rate (CRR) exceeding 90% in the white-box setting. To address these vulnerabilities, we propose IRECE (Inference-time Robustness Enhancement for Concept Erasure), a plug-and-play module that localizes target concepts via cross-attention and perturbs the associated latents during denoising. Experiments demonstrate that IRECE consistently restores robustness, reducing CRR by up to 40% under the most challenging white-box latent inversion scenario, while preserving visual quality. To the best of our knowledge, M-ErasureBench provides the first comprehensive benchmark of concept erasure beyond text prompts. Together with IRECE, our benchmark offers practical safeguards for building more reliable protective generative models.