ChatPaper.aiChatPaper

TRCE: Hacia la Eliminación Confiable de Conceptos Maliciosos en Modelos de Difusión de Texto a Imagen

TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models

March 10, 2025
Autores: Ruidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu
cs.AI

Resumen

Los recientes avances en los modelos de difusión de texto a imagen permiten la generación de imágenes fotorrealistas, pero también conllevan el riesgo de producir contenido malicioso, como imágenes NSFW. Para mitigar este riesgo, se estudian métodos de borrado de conceptos que facilitan que el modelo desaprenda conceptos específicos. Sin embargo, los estudios actuales tienen dificultades para borrar completamente los conceptos maliciosos que están implícitamente incrustados en las indicaciones (por ejemplo, expresiones metafóricas o indicaciones adversarias) mientras se preserva la capacidad de generación normal del modelo. Para abordar este desafío, nuestro estudio propone TRCE, utilizando una estrategia de borrado de conceptos en dos etapas para lograr un equilibrio efectivo entre el borrado confiable y la preservación del conocimiento. En primer lugar, TRCE comienza borrando la semántica maliciosa implícitamente incrustada en las indicaciones textuales. Al identificar un objetivo de mapeo crítico (es decir, la incrustación [EoT]), optimizamos las capas de atención cruzada para mapear indicaciones maliciosas a indicaciones contextualmente similares pero con conceptos seguros. Este paso evita que el modelo se vea excesivamente influenciado por la semántica maliciosa durante el proceso de eliminación de ruido. A continuación, considerando las propiedades determinísticas de la trayectoria de muestreo del modelo de difusión, TRCE dirige aún más la predicción temprana de eliminación de ruido hacia la dirección segura y lejos de la insegura mediante el aprendizaje contrastivo, evitando así aún más la generación de contenido malicioso. Finalmente, realizamos evaluaciones exhaustivas de TRCE en múltiples puntos de referencia de borrado de conceptos maliciosos, y los resultados demuestran su eficacia para borrar conceptos maliciosos mientras se preserva mejor la capacidad de generación original del modelo. El código está disponible en: http://github.com/ddgoodgood/TRCE. ADVERTENCIA: Este artículo incluye contenido generado por modelos que puede contener material ofensivo.
English
Recent advances in text-to-image diffusion models enable photorealistic image generation, but they also risk producing malicious content, such as NSFW images. To mitigate risk, concept erasure methods are studied to facilitate the model to unlearn specific concepts. However, current studies struggle to fully erase malicious concepts implicitly embedded in prompts (e.g., metaphorical expressions or adversarial prompts) while preserving the model's normal generation capability. To address this challenge, our study proposes TRCE, using a two-stage concept erasure strategy to achieve an effective trade-off between reliable erasure and knowledge preservation. Firstly, TRCE starts by erasing the malicious semantics implicitly embedded in textual prompts. By identifying a critical mapping objective(i.e., the [EoT] embedding), we optimize the cross-attention layers to map malicious prompts to contextually similar prompts but with safe concepts. This step prevents the model from being overly influenced by malicious semantics during the denoising process. Following this, considering the deterministic properties of the sampling trajectory of the diffusion model, TRCE further steers the early denoising prediction toward the safe direction and away from the unsafe one through contrastive learning, thus further avoiding the generation of malicious content. Finally, we conduct comprehensive evaluations of TRCE on multiple malicious concept erasure benchmarks, and the results demonstrate its effectiveness in erasing malicious concepts while better preserving the model's original generation ability. The code is available at: http://github.com/ddgoodgood/TRCE. CAUTION: This paper includes model-generated content that may contain offensive material.

Summary

AI-Generated Summary

PDF31March 11, 2025