TRCE : Vers une suppression fiable des concepts malveillants dans les modèles de diffusion texte-image

Résumé

Les récentes avancées dans les modèles de diffusion texte-image permettent la génération d'images photoréalistes, mais elles risquent également de produire du contenu malveillant, tel que des images NSFW. Pour atténuer ce risque, des méthodes d'effacement de concepts sont étudiées afin de permettre au modèle de désapprendre des concepts spécifiques. Cependant, les études actuelles peinent à effacer complètement les concepts malveillants implicitement intégrés dans les prompts (par exemple, des expressions métaphoriques ou des prompts adversariaux) tout en préservant la capacité de génération normale du modèle. Pour relever ce défi, notre étude propose TRCE, utilisant une stratégie d'effacement de concepts en deux étapes pour atteindre un compromis efficace entre un effacement fiable et la préservation des connaissances. Premièrement, TRCE commence par effacer la sémantique malveillante implicitement intégrée dans les prompts textuels. En identifiant un objectif de mappage critique (c'est-à-dire l'embedding [EoT]), nous optimisons les couches d'attention croisée pour mapper les prompts malveillants vers des prompts contextuellement similaires mais avec des concepts sûrs. Cette étape empêche le modèle d'être excessivement influencé par la sémantique malveillante pendant le processus de débruitage. Ensuite, en tenant compte des propriétés déterministes de la trajectoire d'échantillonnage du modèle de diffusion, TRCE oriente davantage la prédiction de débruitage précoce vers la direction sûre et éloignée de la direction non sûre grâce à l'apprentissage contrastif, évitant ainsi davantage la génération de contenu malveillant. Enfin, nous effectuons des évaluations complètes de TRCE sur plusieurs benchmarks d'effacement de concepts malveillants, et les résultats démontrent son efficacité à effacer les concepts malveillants tout en préservant mieux la capacité de génération originale du modèle. Le code est disponible à l'adresse suivante : http://github.com/ddgoodgood/TRCE. ATTENTION : Cet article inclut du contenu généré par un modèle qui peut contenir du matériel offensant.

English

Recent advances in text-to-image diffusion models enable photorealistic image generation, but they also risk producing malicious content, such as NSFW images. To mitigate risk, concept erasure methods are studied to facilitate the model to unlearn specific concepts. However, current studies struggle to fully erase malicious concepts implicitly embedded in prompts (e.g., metaphorical expressions or adversarial prompts) while preserving the model's normal generation capability. To address this challenge, our study proposes TRCE, using a two-stage concept erasure strategy to achieve an effective trade-off between reliable erasure and knowledge preservation. Firstly, TRCE starts by erasing the malicious semantics implicitly embedded in textual prompts. By identifying a critical mapping objective(i.e., the [EoT] embedding), we optimize the cross-attention layers to map malicious prompts to contextually similar prompts but with safe concepts. This step prevents the model from being overly influenced by malicious semantics during the denoising process. Following this, considering the deterministic properties of the sampling trajectory of the diffusion model, TRCE further steers the early denoising prediction toward the safe direction and away from the unsafe one through contrastive learning, thus further avoiding the generation of malicious content. Finally, we conduct comprehensive evaluations of TRCE on multiple malicious concept erasure benchmarks, and the results demonstrate its effectiveness in erasing malicious concepts while better preserving the model's original generation ability. The code is available at: http://github.com/ddgoodgood/TRCE. CAUTION: This paper includes model-generated content that may contain offensive material.

TRCE : Vers une suppression fiable des concepts malveillants dans les modèles de diffusion texte-image

TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models

Résumé

Support