Metti le Cose in Chiaro: Traiettorie di Denoising Auto-Dirette per Evitare Concetti Indesiderati
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts
April 17, 2025
Autori: Leyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong
cs.AI
Abstract
Garantire un impiego etico dei modelli di testo-immagine richiede tecniche efficaci per prevenire la generazione di contenuti dannosi o inappropriati. Sebbene i metodi di cancellazione concettuale offrano una soluzione promettente, gli approcci esistenti basati su fine-tuning presentano limitazioni significative. I metodi senza ancoraggio rischiano di perturbare le traiettorie di campionamento, causando artefatti visivi, mentre i metodi basati su ancoraggio si affidano alla selezione euristica di concetti di ancoraggio. Per superare queste carenze, introduciamo un framework di fine-tuning, denominato ANT, che guida Automaticamente le Traiettorie di deNoising per evitare concetti indesiderati. ANT si basa su un'idea chiave: invertire la direzione di condizionamento della guida senza classificatore durante le fasi intermedie e finali del denoising consente una modifica precisa del contenuto senza compromettere l'integrità strutturale nelle fasi iniziali. Ciò ispira un obiettivo consapevole della traiettoria che preserva l'integrità del campo della funzione di punteggio nelle fasi iniziali, che orienta i campioni verso il manifold delle immagini naturali, senza fare affidamento sulla selezione euristica di concetti di ancoraggio. Per la cancellazione di un singolo concetto, proponiamo una mappa di salienza dei pesi potenziata da aumentazioni per identificare con precisione i parametri critici che contribuiscono maggiormente al concetto indesiderato, consentendo una cancellazione più completa ed efficiente. Per la cancellazione di più concetti, la nostra funzione obiettivo offre una soluzione versatile plug-and-play che migliora significativamente le prestazioni. Esperimenti estensivi dimostrano che ANT raggiunge risultati all'avanguardia sia nella cancellazione di singoli che di più concetti, producendo output di alta qualità e sicuri senza compromettere la fedeltà generativa. Il codice è disponibile all'indirizzo https://github.com/lileyang1210/ANT.
English
Ensuring the ethical deployment of text-to-image models requires effective
techniques to prevent the generation of harmful or inappropriate content. While
concept erasure methods offer a promising solution, existing finetuning-based
approaches suffer from notable limitations. Anchor-free methods risk disrupting
sampling trajectories, leading to visual artifacts, while anchor-based methods
rely on the heuristic selection of anchor concepts. To overcome these
shortcomings, we introduce a finetuning framework, dubbed ANT, which
Automatically guides deNoising Trajectories to avoid unwanted concepts. ANT is
built on a key insight: reversing the condition direction of classifier-free
guidance during mid-to-late denoising stages enables precise content
modification without sacrificing early-stage structural integrity. This
inspires a trajectory-aware objective that preserves the integrity of the
early-stage score function field, which steers samples toward the natural image
manifold, without relying on heuristic anchor concept selection. For
single-concept erasure, we propose an augmentation-enhanced weight saliency map
to precisely identify the critical parameters that most significantly
contribute to the unwanted concept, enabling more thorough and efficient
erasure. For multi-concept erasure, our objective function offers a versatile
plug-and-play solution that significantly boosts performance. Extensive
experiments demonstrate that ANT achieves state-of-the-art results in both
single and multi-concept erasure, delivering high-quality, safe outputs without
compromising the generative fidelity. Code is available at
https://github.com/lileyang1210/ANTSummary
AI-Generated Summary