Ponemos las cosas en claro: Auto-direccionamiento de trayectorias de desruido para evitar conceptos no deseados
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts
April 17, 2025
Autores: Leyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong
cs.AI
Resumen
Garantizar el despliegue ético de los modelos de texto a imagen requiere técnicas efectivas para prevenir la generación de contenido dañino o inapropiado. Si bien los métodos de borrado de conceptos ofrecen una solución prometedora, los enfoques existentes basados en ajuste fino presentan limitaciones notables. Los métodos sin anclaje corren el riesgo de alterar las trayectorias de muestreo, lo que genera artefactos visuales, mientras que los métodos basados en anclaje dependen de la selección heurística de conceptos ancla. Para superar estas deficiencias, presentamos un marco de ajuste fino, denominado ANT, que guía Automáticamente las Trayectorias de Desruido (Automatically guides deNoising Trajectories) para evitar conceptos no deseados. ANT se basa en una idea clave: invertir la dirección de la condición de la guía sin clasificador durante las etapas intermedias y finales del desruido permite una modificación precisa del contenido sin sacrificar la integridad estructural en las etapas iniciales. Esto inspira un objetivo consciente de la trayectoria que preserva la integridad del campo de la función de puntuación en las etapas iniciales, que dirige las muestras hacia la variedad de imágenes naturales, sin depender de la selección heurística de conceptos ancla. Para el borrado de un solo concepto, proponemos un mapa de prominencia de pesos mejorado con aumentos para identificar con precisión los parámetros críticos que contribuyen más significativamente al concepto no deseado, permitiendo un borrado más completo y eficiente. Para el borrado de múltiples conceptos, nuestra función objetivo ofrece una solución versátil de tipo plug-and-play que mejora significativamente el rendimiento. Experimentos exhaustivos demuestran que ANT logra resultados de vanguardia tanto en el borrado de un solo concepto como en el de múltiples conceptos, produciendo salidas seguras y de alta calidad sin comprometer la fidelidad generativa. El código está disponible en https://github.com/lileyang1210/ANT.
English
Ensuring the ethical deployment of text-to-image models requires effective
techniques to prevent the generation of harmful or inappropriate content. While
concept erasure methods offer a promising solution, existing finetuning-based
approaches suffer from notable limitations. Anchor-free methods risk disrupting
sampling trajectories, leading to visual artifacts, while anchor-based methods
rely on the heuristic selection of anchor concepts. To overcome these
shortcomings, we introduce a finetuning framework, dubbed ANT, which
Automatically guides deNoising Trajectories to avoid unwanted concepts. ANT is
built on a key insight: reversing the condition direction of classifier-free
guidance during mid-to-late denoising stages enables precise content
modification without sacrificing early-stage structural integrity. This
inspires a trajectory-aware objective that preserves the integrity of the
early-stage score function field, which steers samples toward the natural image
manifold, without relying on heuristic anchor concept selection. For
single-concept erasure, we propose an augmentation-enhanced weight saliency map
to precisely identify the critical parameters that most significantly
contribute to the unwanted concept, enabling more thorough and efficient
erasure. For multi-concept erasure, our objective function offers a versatile
plug-and-play solution that significantly boosts performance. Extensive
experiments demonstrate that ANT achieves state-of-the-art results in both
single and multi-concept erasure, delivering high-quality, safe outputs without
compromising the generative fidelity. Code is available at
https://github.com/lileyang1210/ANTSummary
AI-Generated Summary