Zet je op het juiste spoor: Auto-sturende denoisingsporen om ongewenste concepten te omzeilen
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts
April 17, 2025
Auteurs: Leyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong
cs.AI
Samenvatting
Het waarborgen van de ethische inzet van tekst-naar-beeldmodellen vereist effectieve technieken om het genereren van schadelijk of ongepast content te voorkomen. Hoewel conceptverwijderingsmethoden een veelbelovende oplossing bieden, kampen bestaande finetuning-gebaseerde benaderingen met aanzienlijke beperkingen. Anchor-vrije methoden riskeren het verstoren van samplingtrajectories, wat leidt tot visuele artefacten, terwijl anchor-gebaseerde methoden afhankelijk zijn van de heuristische selectie van anchorconcepten. Om deze tekortkomingen te overwinnen, introduceren we een finetuning-framework, genaamd ANT, dat Automatisch deNoising Trajectories begeleidt om ongewenste concepten te vermijden. ANT is gebaseerd op een belangrijk inzicht: het omkeren van de conditierichting van classifier-free guidance tijdens de midden tot late denoising-fasen maakt precieze contentmodificatie mogelijk zonder de structurele integriteit in de vroege fasen op te offeren. Dit inspireert een trajectory-aware doelstelling die de integriteit van het scorefunctieveld in de vroege fasen behoudt, dat samples naar het natuurlijke beeldmanifold stuurt, zonder te vertrouwen op heuristische anchorconceptselectie. Voor het verwijderen van enkelvoudige concepten stellen we een augmentatie-versterkte gewichtssaliency map voor om precies de kritieke parameters te identificeren die het meest significant bijdragen aan het ongewenste concept, wat een grondigere en efficiëntere verwijdering mogelijk maakt. Voor het verwijderen van meerdere concepten biedt onze doelstellingsfunctie een veelzijdige plug-and-play oplossing die de prestaties aanzienlijk verbetert. Uitgebreide experimenten tonen aan dat ANT state-of-the-art resultaten behaalt bij zowel enkelvoudige als meervoudige conceptverwijdering, en hoogwaardige, veilige outputs levert zonder in te leveren op de generatieve kwaliteit. Code is beschikbaar op https://github.com/lileyang1210/ANT.
English
Ensuring the ethical deployment of text-to-image models requires effective
techniques to prevent the generation of harmful or inappropriate content. While
concept erasure methods offer a promising solution, existing finetuning-based
approaches suffer from notable limitations. Anchor-free methods risk disrupting
sampling trajectories, leading to visual artifacts, while anchor-based methods
rely on the heuristic selection of anchor concepts. To overcome these
shortcomings, we introduce a finetuning framework, dubbed ANT, which
Automatically guides deNoising Trajectories to avoid unwanted concepts. ANT is
built on a key insight: reversing the condition direction of classifier-free
guidance during mid-to-late denoising stages enables precise content
modification without sacrificing early-stage structural integrity. This
inspires a trajectory-aware objective that preserves the integrity of the
early-stage score function field, which steers samples toward the natural image
manifold, without relying on heuristic anchor concept selection. For
single-concept erasure, we propose an augmentation-enhanced weight saliency map
to precisely identify the critical parameters that most significantly
contribute to the unwanted concept, enabling more thorough and efficient
erasure. For multi-concept erasure, our objective function offers a versatile
plug-and-play solution that significantly boosts performance. Extensive
experiments demonstrate that ANT achieves state-of-the-art results in both
single and multi-concept erasure, delivering high-quality, safe outputs without
compromising the generative fidelity. Code is available at
https://github.com/lileyang1210/ANTSummary
AI-Generated Summary