TRCE: Verso un'Affidabile Cancellazione di Concetti Maligni nei Modelli di Diffusione Testo-Immagine
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models
March 10, 2025
Autori: Ruidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu
cs.AI
Abstract
I recenti progressi nei modelli di diffusione testo-immagine consentono la generazione di immagini fotorealistiche, ma comportano anche il rischio di produrre contenuti dannosi, come immagini NSFW. Per mitigare tale rischio, vengono studiati metodi di cancellazione concettuale per facilitare il modello a disimparare specifici concetti. Tuttavia, gli studi attuali faticano a cancellare completamente i concetti dannosi implicitamente incorporati nei prompt (ad esempio, espressioni metaforiche o prompt avversari) preservando al contempo la normale capacità di generazione del modello. Per affrontare questa sfida, il nostro studio propone TRCE, utilizzando una strategia di cancellazione concettuale in due fasi per raggiungere un efficace compromesso tra cancellazione affidabile e conservazione della conoscenza. In primo luogo, TRCE inizia cancellando le semantiche dannose implicitamente incorporate nei prompt testuali. Identificando un obiettivo di mappatura critico (ovvero l'embedding [EoT]), ottimizziamo i livelli di cross-attention per mappare prompt dannosi a prompt contestualmente simili ma con concetti sicuri. Questo passaggio impedisce al modello di essere eccessivamente influenzato da semantiche dannose durante il processo di denoising. Successivamente, considerando le proprietà deterministiche della traiettoria di campionamento del modello di diffusione, TRCE orienta ulteriormente la previsione iniziale del denoising verso la direzione sicura e lontana da quella non sicura attraverso l'apprendimento contrastivo, evitando così ulteriormente la generazione di contenuti dannosi. Infine, conduciamo valutazioni complete di TRCE su più benchmark di cancellazione di concetti dannosi, e i risultati dimostrano la sua efficacia nel cancellare concetti dannosi preservando meglio la capacità di generazione originale del modello. Il codice è disponibile all'indirizzo: http://github.com/ddgoodgood/TRCE. ATTENZIONE: Questo articolo include contenuti generati dal modello che potrebbero contenere materiale offensivo.
English
Recent advances in text-to-image diffusion models enable photorealistic image
generation, but they also risk producing malicious content, such as NSFW
images. To mitigate risk, concept erasure methods are studied to facilitate the
model to unlearn specific concepts. However, current studies struggle to fully
erase malicious concepts implicitly embedded in prompts (e.g., metaphorical
expressions or adversarial prompts) while preserving the model's normal
generation capability. To address this challenge, our study proposes TRCE,
using a two-stage concept erasure strategy to achieve an effective trade-off
between reliable erasure and knowledge preservation. Firstly, TRCE starts by
erasing the malicious semantics implicitly embedded in textual prompts. By
identifying a critical mapping objective(i.e., the [EoT] embedding), we
optimize the cross-attention layers to map malicious prompts to contextually
similar prompts but with safe concepts. This step prevents the model from being
overly influenced by malicious semantics during the denoising process.
Following this, considering the deterministic properties of the sampling
trajectory of the diffusion model, TRCE further steers the early denoising
prediction toward the safe direction and away from the unsafe one through
contrastive learning, thus further avoiding the generation of malicious
content. Finally, we conduct comprehensive evaluations of TRCE on multiple
malicious concept erasure benchmarks, and the results demonstrate its
effectiveness in erasing malicious concepts while better preserving the model's
original generation ability. The code is available at:
http://github.com/ddgoodgood/TRCE. CAUTION: This paper includes model-generated
content that may contain offensive material.Summary
AI-Generated Summary