Edição de Imagens sem Ajustes com Fidelidade e Editabilidade via Modelo Unificado de Difusão Latente

Resumo

Equilibrar fidelidade e editabilidade é essencial na edição de imagens baseada em texto (TIE), onde falhas geralmente resultam em problemas de edição excessiva ou insuficiente. Os métodos existentes normalmente dependem de injeções de atenção para preservação da estrutura e aproveitam as capacidades inerentes de alinhamento de texto de modelos pré-treinados de texto para imagem (T2I) para editabilidade, mas carecem de mecanismos explícitos e unificados para equilibrar adequadamente esses dois objetivos. Neste trabalho, apresentamos o UnifyEdit, um método sem ajuste que realiza otimização de latente de difusão para permitir uma integração equilibrada de fidelidade e editabilidade em um framework unificado. Diferente das injeções diretas de atenção, desenvolvemos duas restrições baseadas em atenção: uma restrição de preservação de auto-atenção (SA) para fidelidade estrutural e uma restrição de alinhamento de atenção cruzada (CA) para melhorar o alinhamento de texto e aumentar a editabilidade. No entanto, aplicar ambas as restrições simultaneamente pode levar a conflitos de gradiente, onde o domínio de uma restrição resulta em edição excessiva ou insuficiente. Para enfrentar esse desafio, introduzimos um agendador adaptativo de passos de tempo que ajusta dinamicamente a influência dessas restrições, guiando o latente de difusão em direção a um equilíbrio ótimo. Experimentos quantitativos e qualitativos extensivos validam a eficácia da nossa abordagem, demonstrando sua superioridade em alcançar um equilíbrio robusto entre preservação de estrutura e alinhamento de texto em diversas tarefas de edição, superando outros métodos state-of-the-art. O código-fonte estará disponível em https://github.com/CUC-MIPG/UnifyEdit.

English

Balancing fidelity and editability is essential in text-based image editing (TIE), where failures commonly lead to over- or under-editing issues. Existing methods typically rely on attention injections for structure preservation and leverage the inherent text alignment capabilities of pre-trained text-to-image (T2I) models for editability, but they lack explicit and unified mechanisms to properly balance these two objectives. In this work, we introduce UnifyEdit, a tuning-free method that performs diffusion latent optimization to enable a balanced integration of fidelity and editability within a unified framework. Unlike direct attention injections, we develop two attention-based constraints: a self-attention (SA) preservation constraint for structural fidelity, and a cross-attention (CA) alignment constraint to enhance text alignment for improved editability. However, simultaneously applying both constraints can lead to gradient conflicts, where the dominance of one constraint results in over- or under-editing. To address this challenge, we introduce an adaptive time-step scheduler that dynamically adjusts the influence of these constraints, guiding the diffusion latent toward an optimal balance. Extensive quantitative and qualitative experiments validate the effectiveness of our approach, demonstrating its superiority in achieving a robust balance between structure preservation and text alignment across various editing tasks, outperforming other state-of-the-art methods. The source code will be available at https://github.com/CUC-MIPG/UnifyEdit.

Edição de Imagens sem Ajustes com Fidelidade e Editabilidade via Modelo Unificado de Difusão Latente

Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model

Resumo

Summary

Support

Support