ChatPaper.aiChatPaper

Ponemos las cosas en claro: Auto-direccionamiento de trayectorias de desruido para evitar conceptos no deseados

Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts

April 17, 2025
Autores: Leyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong
cs.AI

Resumen

Garantizar el despliegue ético de los modelos de texto a imagen requiere técnicas efectivas para prevenir la generación de contenido dañino o inapropiado. Si bien los métodos de borrado de conceptos ofrecen una solución prometedora, los enfoques existentes basados en ajuste fino presentan limitaciones notables. Los métodos sin anclaje corren el riesgo de alterar las trayectorias de muestreo, lo que genera artefactos visuales, mientras que los métodos basados en anclaje dependen de la selección heurística de conceptos ancla. Para superar estas deficiencias, presentamos un marco de ajuste fino, denominado ANT, que guía Automáticamente las Trayectorias de Desruido (Automatically guides deNoising Trajectories) para evitar conceptos no deseados. ANT se basa en una idea clave: invertir la dirección de la condición de la guía sin clasificador durante las etapas intermedias y finales del desruido permite una modificación precisa del contenido sin sacrificar la integridad estructural en las etapas iniciales. Esto inspira un objetivo consciente de la trayectoria que preserva la integridad del campo de la función de puntuación en las etapas iniciales, que dirige las muestras hacia la variedad de imágenes naturales, sin depender de la selección heurística de conceptos ancla. Para el borrado de un solo concepto, proponemos un mapa de prominencia de pesos mejorado con aumentos para identificar con precisión los parámetros críticos que contribuyen más significativamente al concepto no deseado, permitiendo un borrado más completo y eficiente. Para el borrado de múltiples conceptos, nuestra función objetivo ofrece una solución versátil de tipo plug-and-play que mejora significativamente el rendimiento. Experimentos exhaustivos demuestran que ANT logra resultados de vanguardia tanto en el borrado de un solo concepto como en el de múltiples conceptos, produciendo salidas seguras y de alta calidad sin comprometer la fidelidad generativa. El código está disponible en https://github.com/lileyang1210/ANT.
English
Ensuring the ethical deployment of text-to-image models requires effective techniques to prevent the generation of harmful or inappropriate content. While concept erasure methods offer a promising solution, existing finetuning-based approaches suffer from notable limitations. Anchor-free methods risk disrupting sampling trajectories, leading to visual artifacts, while anchor-based methods rely on the heuristic selection of anchor concepts. To overcome these shortcomings, we introduce a finetuning framework, dubbed ANT, which Automatically guides deNoising Trajectories to avoid unwanted concepts. ANT is built on a key insight: reversing the condition direction of classifier-free guidance during mid-to-late denoising stages enables precise content modification without sacrificing early-stage structural integrity. This inspires a trajectory-aware objective that preserves the integrity of the early-stage score function field, which steers samples toward the natural image manifold, without relying on heuristic anchor concept selection. For single-concept erasure, we propose an augmentation-enhanced weight saliency map to precisely identify the critical parameters that most significantly contribute to the unwanted concept, enabling more thorough and efficient erasure. For multi-concept erasure, our objective function offers a versatile plug-and-play solution that significantly boosts performance. Extensive experiments demonstrate that ANT achieves state-of-the-art results in both single and multi-concept erasure, delivering high-quality, safe outputs without compromising the generative fidelity. Code is available at https://github.com/lileyang1210/ANT

Summary

AI-Generated Summary

PDF42April 18, 2025