TRCE: Op Weg naar Betrouwbare Verwijdering van Kwaadaardige Concepten in Text-naar-Afbeelding Diffusiemodellen
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models
March 10, 2025
Auteurs: Ruidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-beeld diffusiemodellen maakt fotorealistische beeldgeneratie mogelijk, maar brengt ook het risico met zich mee om schadelijke inhoud te produceren, zoals NSFW-beelden. Om dit risico te beperken, worden conceptverwijderingsmethoden bestudeerd om het model te helpen specifieke concepten af te leren. Huidige studies hebben echter moeite om schadelijke concepten die impliciet in prompts zijn ingebed (bijvoorbeeld metaforische uitdrukkingen of adversariële prompts) volledig te verwijderen, terwijl de normale generatiecapaciteit van het model behouden blijft. Om deze uitdaging aan te pakken, stelt onze studie TRCE voor, waarbij een tweestaps strategie voor conceptverwijdering wordt gebruikt om een effectieve balans te bereiken tussen betrouwbare verwijdering en kennisbehoud. Ten eerste begint TRCE met het verwijderen van de schadelijke semantiek die impliciet in tekstuele prompts is ingebed. Door een kritisch mappingdoel (d.w.z. de [EoT]-embedding) te identificeren, optimaliseren we de cross-attention lagen om schadelijke prompts te mappen naar contextueel vergelijkbare prompts maar met veilige concepten. Deze stap voorkomt dat het model tijdens het denoisingsproces te veel wordt beïnvloed door schadelijke semantiek. Vervolgens, rekening houdend met de deterministische eigenschappen van de samplingtrajectorie van het diffusiemodel, stuurt TRCE de vroege denoisingvoorspelling verder in de richting van de veilige kant en weg van de onveilige kant door middel van contrastief leren, waardoor de generatie van schadelijke inhoud verder wordt vermeden. Ten slotte voeren we uitgebreide evaluaties van TRCE uit op meerdere benchmarks voor het verwijderen van schadelijke concepten, en de resultaten tonen aan dat het effectief is in het verwijderen van schadelijke concepten terwijl de oorspronkelijke generatiecapaciteit van het model beter behouden blijft. De code is beschikbaar op: http://github.com/ddgoodgood/TRCE. LET OP: Dit artikel bevat modelgegenereerde inhoud die mogelijk aanstootgevend materiaal bevat.
English
Recent advances in text-to-image diffusion models enable photorealistic image
generation, but they also risk producing malicious content, such as NSFW
images. To mitigate risk, concept erasure methods are studied to facilitate the
model to unlearn specific concepts. However, current studies struggle to fully
erase malicious concepts implicitly embedded in prompts (e.g., metaphorical
expressions or adversarial prompts) while preserving the model's normal
generation capability. To address this challenge, our study proposes TRCE,
using a two-stage concept erasure strategy to achieve an effective trade-off
between reliable erasure and knowledge preservation. Firstly, TRCE starts by
erasing the malicious semantics implicitly embedded in textual prompts. By
identifying a critical mapping objective(i.e., the [EoT] embedding), we
optimize the cross-attention layers to map malicious prompts to contextually
similar prompts but with safe concepts. This step prevents the model from being
overly influenced by malicious semantics during the denoising process.
Following this, considering the deterministic properties of the sampling
trajectory of the diffusion model, TRCE further steers the early denoising
prediction toward the safe direction and away from the unsafe one through
contrastive learning, thus further avoiding the generation of malicious
content. Finally, we conduct comprehensive evaluations of TRCE on multiple
malicious concept erasure benchmarks, and the results demonstrate its
effectiveness in erasing malicious concepts while better preserving the model's
original generation ability. The code is available at:
http://github.com/ddgoodgood/TRCE. CAUTION: This paper includes model-generated
content that may contain offensive material.Summary
AI-Generated Summary