Edição de Imagens sem Ajustes com Fidelidade e Editabilidade via Modelo Unificado de Difusão Latente
Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model
April 8, 2025
Autores: Qi Mao, Lan Chen, Yuchao Gu, Mike Zheng Shou, Ming-Hsuan Yang
cs.AI
Resumo
Equilibrar fidelidade e editabilidade é essencial na edição de imagens baseada em texto (TIE), onde falhas geralmente resultam em problemas de edição excessiva ou insuficiente. Os métodos existentes normalmente dependem de injeções de atenção para preservação da estrutura e aproveitam as capacidades inerentes de alinhamento de texto de modelos pré-treinados de texto para imagem (T2I) para editabilidade, mas carecem de mecanismos explícitos e unificados para equilibrar adequadamente esses dois objetivos. Neste trabalho, apresentamos o UnifyEdit, um método sem ajuste que realiza otimização de latente de difusão para permitir uma integração equilibrada de fidelidade e editabilidade em um framework unificado. Diferente das injeções diretas de atenção, desenvolvemos duas restrições baseadas em atenção: uma restrição de preservação de auto-atenção (SA) para fidelidade estrutural e uma restrição de alinhamento de atenção cruzada (CA) para melhorar o alinhamento de texto e aumentar a editabilidade. No entanto, aplicar ambas as restrições simultaneamente pode levar a conflitos de gradiente, onde o domínio de uma restrição resulta em edição excessiva ou insuficiente. Para enfrentar esse desafio, introduzimos um agendador adaptativo de passos de tempo que ajusta dinamicamente a influência dessas restrições, guiando o latente de difusão em direção a um equilíbrio ótimo. Experimentos quantitativos e qualitativos extensivos validam a eficácia da nossa abordagem, demonstrando sua superioridade em alcançar um equilíbrio robusto entre preservação de estrutura e alinhamento de texto em diversas tarefas de edição, superando outros métodos state-of-the-art. O código-fonte estará disponível em https://github.com/CUC-MIPG/UnifyEdit.
English
Balancing fidelity and editability is essential in text-based image editing
(TIE), where failures commonly lead to over- or under-editing issues. Existing
methods typically rely on attention injections for structure preservation and
leverage the inherent text alignment capabilities of pre-trained text-to-image
(T2I) models for editability, but they lack explicit and unified mechanisms to
properly balance these two objectives. In this work, we introduce UnifyEdit, a
tuning-free method that performs diffusion latent optimization to enable a
balanced integration of fidelity and editability within a unified framework.
Unlike direct attention injections, we develop two attention-based constraints:
a self-attention (SA) preservation constraint for structural fidelity, and a
cross-attention (CA) alignment constraint to enhance text alignment for
improved editability. However, simultaneously applying both constraints can
lead to gradient conflicts, where the dominance of one constraint results in
over- or under-editing. To address this challenge, we introduce an adaptive
time-step scheduler that dynamically adjusts the influence of these
constraints, guiding the diffusion latent toward an optimal balance. Extensive
quantitative and qualitative experiments validate the effectiveness of our
approach, demonstrating its superiority in achieving a robust balance between
structure preservation and text alignment across various editing tasks,
outperforming other state-of-the-art methods. The source code will be available
at https://github.com/CUC-MIPG/UnifyEdit.Summary
AI-Generated Summary