Направить вас на верный путь: автоматическое управление траекториями шумоподавления для обхода нежелательных концепций
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts
April 17, 2025
Авторы: Leyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong
cs.AI
Аннотация
Обеспечение этичного использования моделей преобразования текста в изображения требует эффективных методов предотвращения генерации вредного или неподобающего контента. Хотя методы удаления концепций предлагают перспективное решение, существующие подходы, основанные на тонкой настройке, имеют существенные ограничения. Методы без использования якорных концепций рискуют нарушить траектории выборки, что приводит к визуальным артефактам, в то время как методы с использованием якорных концепций полагаются на эвристический выбор якорных концепций. Чтобы преодолеть эти недостатки, мы представляем фреймворк тонкой настройки, названный ANT, который автоматически направляет траектории денойзинга для избежания нежелательных концепций. ANT основан на ключевой идее: изменение направления условия в классификатор-фри гиде на этапах среднего и позднего денойзинга позволяет точно модифицировать контент без ущерба для структурной целостности на ранних этапах. Это вдохновляет на создание целевой функции, учитывающей траектории, которая сохраняет целостность поля функции оценки на ранних этапах, направляя выборки к многообразию естественных изображений, без необходимости эвристического выбора якорных концепций. Для удаления одной концепции мы предлагаем карту значимости весов, усиленную аугментацией, чтобы точно определить критические параметры, которые в наибольшей степени способствуют нежелательной концепции, что позволяет более тщательно и эффективно удалить её. Для удаления нескольких концепций наша целевая функция предлагает универсальное решение "подключи и работай", которое значительно повышает производительность. Многочисленные эксперименты демонстрируют, что ANT достигает передовых результатов как в удалении одной, так и нескольких концепций, обеспечивая высококачественные и безопасные результаты без ущерба для генеративной точности. Код доступен по адресу https://github.com/lileyang1210/ANT.
English
Ensuring the ethical deployment of text-to-image models requires effective
techniques to prevent the generation of harmful or inappropriate content. While
concept erasure methods offer a promising solution, existing finetuning-based
approaches suffer from notable limitations. Anchor-free methods risk disrupting
sampling trajectories, leading to visual artifacts, while anchor-based methods
rely on the heuristic selection of anchor concepts. To overcome these
shortcomings, we introduce a finetuning framework, dubbed ANT, which
Automatically guides deNoising Trajectories to avoid unwanted concepts. ANT is
built on a key insight: reversing the condition direction of classifier-free
guidance during mid-to-late denoising stages enables precise content
modification without sacrificing early-stage structural integrity. This
inspires a trajectory-aware objective that preserves the integrity of the
early-stage score function field, which steers samples toward the natural image
manifold, without relying on heuristic anchor concept selection. For
single-concept erasure, we propose an augmentation-enhanced weight saliency map
to precisely identify the critical parameters that most significantly
contribute to the unwanted concept, enabling more thorough and efficient
erasure. For multi-concept erasure, our objective function offers a versatile
plug-and-play solution that significantly boosts performance. Extensive
experiments demonstrate that ANT achieves state-of-the-art results in both
single and multi-concept erasure, delivering high-quality, safe outputs without
compromising the generative fidelity. Code is available at
https://github.com/lileyang1210/ANTSummary
AI-Generated Summary