ChatPaper.aiChatPaper

M-ErasureBench: Комплексный мультимодальный бенчмарк для оценки стирания концептов в диффузионных моделях

M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

December 28, 2025
Авторы: Ju-Hsuan Weng, Jia-Wei Liao, Cheng-Fu Chou, Jun-Cheng Chen
cs.AI

Аннотация

Диффузионные модели для генерации изображений по тексту могут создавать вредоносный или защищенный авторским правом контент, что стимулирует исследования по удалению концептов. Однако существующие подходы в основном сосредоточены на удалении концептов из текстовых промптов, упуская из виду другие модальности ввода, которые становятся все более важными в реальных приложениях, таких как редактирование изображений и персонализированная генерация. Эти модальности могут стать поверхностями для атак, когда удаленные концепты вновь проявляются, несмотря на защитные меры. Чтобы заполнить этот пробел, мы представляем M-ErasureBench — новую мультимодальную систему оценки, которая систематически тестирует методы удаления концептов в трех модальностях ввода: текстовые промпты, обученные эмбеддинги и инвертированные латентные представления. Для двух последних мы оцениваем как белый, так и черный ящик, получая пять сценариев оценки. Наш анализ показывает, что существующие методы демонстрируют высокую эффективность удаления против текстовых промптов, но в значительной степени терпят неудачу при работе с обученными эмбеддингами и инвертированными латентными представлениями, где уровень воспроизведения концептов (Concept Reproduction Rate, CRR) превышает 90% в настройке белого ящика. Для устранения этих уязвимостей мы предлагаем IRECE (Inference-time Robustness Enhancement for Concept Erasure) — подключаемый модуль, который локализует целевые концепты с помощью кросс-внимания и возмущает связанные латентные представления в процессе денойзинга. Эксперименты показывают, что IRECE последовательно восстанавливает robustness, снижая CRR до 40% в наиболее сложном сценарии инверсии латентных представлений с белым ящиком, при этом сохраняя визуальное качество. Насколько нам известно, M-ErasureBench представляет собой первый всесторонний бенчмарк для оценки удаления концептов за пределами текстовых промптов. Вместе с IRECE наш бенчмарк предлагает практические средства защиты для создания более надежных защищенных генеративных моделей.
English
Text-to-image diffusion models may generate harmful or copyrighted content, motivating research on concept erasure. However, existing approaches primarily focus on erasing concepts from text prompts, overlooking other input modalities that are increasingly critical in real-world applications such as image editing and personalized generation. These modalities can become attack surfaces, where erased concepts re-emerge despite defenses. To bridge this gap, we introduce M-ErasureBench, a novel multimodal evaluation framework that systematically benchmarks concept erasure methods across three input modalities: text prompts, learned embeddings, and inverted latents. For the latter two, we evaluate both white-box and black-box access, yielding five evaluation scenarios. Our analysis shows that existing methods achieve strong erasure performance against text prompts but largely fail under learned embeddings and inverted latents, with Concept Reproduction Rate (CRR) exceeding 90% in the white-box setting. To address these vulnerabilities, we propose IRECE (Inference-time Robustness Enhancement for Concept Erasure), a plug-and-play module that localizes target concepts via cross-attention and perturbs the associated latents during denoising. Experiments demonstrate that IRECE consistently restores robustness, reducing CRR by up to 40% under the most challenging white-box latent inversion scenario, while preserving visual quality. To the best of our knowledge, M-ErasureBench provides the first comprehensive benchmark of concept erasure beyond text prompts. Together with IRECE, our benchmark offers practical safeguards for building more reliable protective generative models.
PDF02January 7, 2026