TRCE : Vers une suppression fiable des concepts malveillants dans les modèles de diffusion texte-image
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models
March 10, 2025
Auteurs: Ruidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu
cs.AI
Résumé
Les récentes avancées dans les modèles de diffusion texte-image permettent la génération d'images photoréalistes, mais elles risquent également de produire du contenu malveillant, tel que des images NSFW. Pour atténuer ce risque, des méthodes d'effacement de concepts sont étudiées afin de permettre au modèle de désapprendre des concepts spécifiques. Cependant, les études actuelles peinent à effacer complètement les concepts malveillants implicitement intégrés dans les prompts (par exemple, des expressions métaphoriques ou des prompts adversariaux) tout en préservant la capacité de génération normale du modèle. Pour relever ce défi, notre étude propose TRCE, utilisant une stratégie d'effacement de concepts en deux étapes pour atteindre un compromis efficace entre un effacement fiable et la préservation des connaissances. Premièrement, TRCE commence par effacer la sémantique malveillante implicitement intégrée dans les prompts textuels. En identifiant un objectif de mappage critique (c'est-à-dire l'embedding [EoT]), nous optimisons les couches d'attention croisée pour mapper les prompts malveillants vers des prompts contextuellement similaires mais avec des concepts sûrs. Cette étape empêche le modèle d'être excessivement influencé par la sémantique malveillante pendant le processus de débruitage. Ensuite, en tenant compte des propriétés déterministes de la trajectoire d'échantillonnage du modèle de diffusion, TRCE oriente davantage la prédiction de débruitage précoce vers la direction sûre et éloignée de la direction non sûre grâce à l'apprentissage contrastif, évitant ainsi davantage la génération de contenu malveillant. Enfin, nous effectuons des évaluations complètes de TRCE sur plusieurs benchmarks d'effacement de concepts malveillants, et les résultats démontrent son efficacité à effacer les concepts malveillants tout en préservant mieux la capacité de génération originale du modèle. Le code est disponible à l'adresse suivante : http://github.com/ddgoodgood/TRCE. ATTENTION : Cet article inclut du contenu généré par un modèle qui peut contenir du matériel offensant.
English
Recent advances in text-to-image diffusion models enable photorealistic image
generation, but they also risk producing malicious content, such as NSFW
images. To mitigate risk, concept erasure methods are studied to facilitate the
model to unlearn specific concepts. However, current studies struggle to fully
erase malicious concepts implicitly embedded in prompts (e.g., metaphorical
expressions or adversarial prompts) while preserving the model's normal
generation capability. To address this challenge, our study proposes TRCE,
using a two-stage concept erasure strategy to achieve an effective trade-off
between reliable erasure and knowledge preservation. Firstly, TRCE starts by
erasing the malicious semantics implicitly embedded in textual prompts. By
identifying a critical mapping objective(i.e., the [EoT] embedding), we
optimize the cross-attention layers to map malicious prompts to contextually
similar prompts but with safe concepts. This step prevents the model from being
overly influenced by malicious semantics during the denoising process.
Following this, considering the deterministic properties of the sampling
trajectory of the diffusion model, TRCE further steers the early denoising
prediction toward the safe direction and away from the unsafe one through
contrastive learning, thus further avoiding the generation of malicious
content. Finally, we conduct comprehensive evaluations of TRCE on multiple
malicious concept erasure benchmarks, and the results demonstrate its
effectiveness in erasing malicious concepts while better preserving the model's
original generation ability. The code is available at:
http://github.com/ddgoodgood/TRCE. CAUTION: This paper includes model-generated
content that may contain offensive material.Summary
AI-Generated Summary