Remettre les choses en ordre : Auto-pilotage des trajectoires de débruitage pour contourner les concepts indésirables
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts
April 17, 2025
Auteurs: Leyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong
cs.AI
Résumé
Garantir le déploiement éthique des modèles de génération d'images à partir de texte nécessite des techniques efficaces pour empêcher la création de contenus nuisibles ou inappropriés. Bien que les méthodes d'effacement de concepts offrent une solution prometteuse, les approches existantes basées sur le réglage fin présentent des limitations notables. Les méthodes sans ancrage risquent de perturber les trajectoires d'échantillonnage, entraînant des artefacts visuels, tandis que les méthodes avec ancrage reposent sur la sélection heuristique de concepts d'ancrage. Pour surmonter ces lacunes, nous introduisons un cadre de réglage fin, baptisé ANT, qui guide Automatiquement les Trajectoires de déBruitage pour éviter les concepts indésirables. ANT repose sur une idée clé : inverser la direction de conditionnement du guidage sans classifieur pendant les étapes intermédiaires à tardives du débruitage permet une modification précise du contenu sans sacrifier l'intégrité structurelle des étapes initiales. Cela inspire un objectif conscient des trajectoires qui préserve l'intégrité du champ de fonction de score des étapes initiales, qui oriente les échantillons vers la variété des images naturelles, sans recourir à la sélection heuristique de concepts d'ancrage. Pour l'effacement d'un seul concept, nous proposons une carte de salience des poids améliorée par augmentation pour identifier précisément les paramètres critiques qui contribuent le plus significativement au concept indésirable, permettant un effacement plus complet et efficace. Pour l'effacement de multiples concepts, notre fonction objectif offre une solution polyvalente prête à l'emploi qui améliore significativement les performances. Des expériences approfondies démontrent qu'ANT atteint des résultats de pointe dans l'effacement de concepts uniques et multiples, produisant des sorties de haute qualité et sûres sans compromettre la fidélité générative. Le code est disponible à l'adresse https://github.com/lileyang1210/ANT.
English
Ensuring the ethical deployment of text-to-image models requires effective
techniques to prevent the generation of harmful or inappropriate content. While
concept erasure methods offer a promising solution, existing finetuning-based
approaches suffer from notable limitations. Anchor-free methods risk disrupting
sampling trajectories, leading to visual artifacts, while anchor-based methods
rely on the heuristic selection of anchor concepts. To overcome these
shortcomings, we introduce a finetuning framework, dubbed ANT, which
Automatically guides deNoising Trajectories to avoid unwanted concepts. ANT is
built on a key insight: reversing the condition direction of classifier-free
guidance during mid-to-late denoising stages enables precise content
modification without sacrificing early-stage structural integrity. This
inspires a trajectory-aware objective that preserves the integrity of the
early-stage score function field, which steers samples toward the natural image
manifold, without relying on heuristic anchor concept selection. For
single-concept erasure, we propose an augmentation-enhanced weight saliency map
to precisely identify the critical parameters that most significantly
contribute to the unwanted concept, enabling more thorough and efficient
erasure. For multi-concept erasure, our objective function offers a versatile
plug-and-play solution that significantly boosts performance. Extensive
experiments demonstrate that ANT achieves state-of-the-art results in both
single and multi-concept erasure, delivering high-quality, safe outputs without
compromising the generative fidelity. Code is available at
https://github.com/lileyang1210/ANTSummary
AI-Generated Summary