Coloque Você no Caminho Certo: Trajetórias de Desruído Auto-Dirigidas para Evitar Conceitos Indesejados
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts
April 17, 2025
Autores: Leyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong
cs.AI
Resumo
Garantir a implantação ética de modelos de texto para imagem requer técnicas eficazes para prevenir a geração de conteúdo prejudicial ou inadequado. Embora os métodos de apagamento de conceitos ofereçam uma solução promissora, as abordagens existentes baseadas em ajuste fino apresentam limitações significativas. Métodos sem âncora correm o risco de perturbar trajetórias de amostragem, resultando em artefatos visuais, enquanto métodos baseados em âncora dependem da seleção heurística de conceitos âncora. Para superar essas deficiências, introduzimos uma estrutura de ajuste fino, denominada ANT, que guia Automaticamente as Trajetórias de Desruído para evitar conceitos indesejados. O ANT é construído com base em uma percepção fundamental: inverter a direção da condição da orientação sem classificador durante os estágios intermediários e finais do processo de desruído permite uma modificação precisa do conteúdo sem sacrificar a integridade estrutural nos estágios iniciais. Isso inspira um objetivo consciente da trajetória que preserva a integridade do campo da função de pontuação nos estágios iniciais, que direciona as amostras para a variedade de imagens naturais, sem depender da seleção heurística de conceitos âncora. Para o apagamento de um único conceito, propomos um mapa de saliência de pesos aprimorado por aumento para identificar com precisão os parâmetros críticos que contribuem mais significativamente para o conceito indesejado, permitindo um apagamento mais completo e eficiente. Para o apagamento de múltiplos conceitos, nossa função objetivo oferece uma solução versátil de plug-and-play que melhora significativamente o desempenho. Experimentos extensivos demonstram que o ANT alcança resultados de ponta tanto no apagamento de um único conceito quanto no de múltiplos conceitos, fornecendo saídas seguras e de alta qualidade sem comprometer a fidelidade gerativa. O código está disponível em https://github.com/lileyang1210/ANT.
English
Ensuring the ethical deployment of text-to-image models requires effective
techniques to prevent the generation of harmful or inappropriate content. While
concept erasure methods offer a promising solution, existing finetuning-based
approaches suffer from notable limitations. Anchor-free methods risk disrupting
sampling trajectories, leading to visual artifacts, while anchor-based methods
rely on the heuristic selection of anchor concepts. To overcome these
shortcomings, we introduce a finetuning framework, dubbed ANT, which
Automatically guides deNoising Trajectories to avoid unwanted concepts. ANT is
built on a key insight: reversing the condition direction of classifier-free
guidance during mid-to-late denoising stages enables precise content
modification without sacrificing early-stage structural integrity. This
inspires a trajectory-aware objective that preserves the integrity of the
early-stage score function field, which steers samples toward the natural image
manifold, without relying on heuristic anchor concept selection. For
single-concept erasure, we propose an augmentation-enhanced weight saliency map
to precisely identify the critical parameters that most significantly
contribute to the unwanted concept, enabling more thorough and efficient
erasure. For multi-concept erasure, our objective function offers a versatile
plug-and-play solution that significantly boosts performance. Extensive
experiments demonstrate that ANT achieves state-of-the-art results in both
single and multi-concept erasure, delivering high-quality, safe outputs without
compromising the generative fidelity. Code is available at
https://github.com/lileyang1210/ANTSummary
AI-Generated Summary