Set You Straight: Automatische Steuerung von Denoising-Pfaden zur Umgehung unerwünschter Konzepte
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts
April 17, 2025
Autoren: Leyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong
cs.AI
Zusammenfassung
Die ethische Bereitstellung von Text-zu-Bild-Modellen erfordert effektive Techniken, um die Erzeugung schädlicher oder unangemessener Inhalte zu verhindern. Während Konzeptlöschungsmethoden eine vielversprechende Lösung bieten, weisen bestehende Feinabstimmungsansätze bemerkenswerte Einschränkungen auf. Ankerfreie Methoden riskieren die Unterbrechung von Sampling-Trajektorien, was zu visuellen Artefakten führt, während ankerbasierte Methoden auf der heuristischen Auswahl von Ankerkonzepten beruhen. Um diese Mängel zu überwinden, führen wir ein Feinabstimmungsframework namens ANT ein, das Automatisch deNoising-Trajektorien steuert, um unerwünschte Konzepte zu vermeiden. ANT basiert auf einer zentralen Erkenntnis: Die Umkehrung der Bedingungsrichtung des classifier-free guidance während der mittleren bis späten Denoising-Phasen ermöglicht eine präzise Inhaltsmodifikation, ohne die strukturelle Integrität in frühen Phasen zu opfern. Dies inspiriert ein trajektorienbewusstes Ziel, das die Integrität des Score-Funktionsfelds in frühen Phasen bewahrt, das Proben in Richtung der natürlichen Bildmannigfaltigkeit lenkt, ohne auf heuristische Ankerkonzeptauswahl angewiesen zu sein. Für die Löschung einzelner Konzepte schlagen wir eine augmentationsverstärkte Gewichtssalienzkarte vor, um die kritischen Parameter, die am stärksten zum unerwünschten Konzept beitragen, präzise zu identifizieren und so eine gründlichere und effizientere Löschung zu ermöglichen. Für die Löschung mehrerer Konzepte bietet unsere Zielfunktion eine vielseitige Plug-and-Play-Lösung, die die Leistung erheblich steigert. Umfangreiche Experimente zeigen, dass ANT in der Löschung einzelner und mehrerer Konzepte state-of-the-art Ergebnisse erzielt und hochwertige, sichere Ausgaben liefert, ohne die generative Treue zu beeinträchtigen. Der Code ist verfügbar unter https://github.com/lileyang1210/ANT.
English
Ensuring the ethical deployment of text-to-image models requires effective
techniques to prevent the generation of harmful or inappropriate content. While
concept erasure methods offer a promising solution, existing finetuning-based
approaches suffer from notable limitations. Anchor-free methods risk disrupting
sampling trajectories, leading to visual artifacts, while anchor-based methods
rely on the heuristic selection of anchor concepts. To overcome these
shortcomings, we introduce a finetuning framework, dubbed ANT, which
Automatically guides deNoising Trajectories to avoid unwanted concepts. ANT is
built on a key insight: reversing the condition direction of classifier-free
guidance during mid-to-late denoising stages enables precise content
modification without sacrificing early-stage structural integrity. This
inspires a trajectory-aware objective that preserves the integrity of the
early-stage score function field, which steers samples toward the natural image
manifold, without relying on heuristic anchor concept selection. For
single-concept erasure, we propose an augmentation-enhanced weight saliency map
to precisely identify the critical parameters that most significantly
contribute to the unwanted concept, enabling more thorough and efficient
erasure. For multi-concept erasure, our objective function offers a versatile
plug-and-play solution that significantly boosts performance. Extensive
experiments demonstrate that ANT achieves state-of-the-art results in both
single and multi-concept erasure, delivering high-quality, safe outputs without
compromising the generative fidelity. Code is available at
https://github.com/lileyang1210/ANTSummary
AI-Generated Summary