LOCATEdit: Atenção Cruzada Otimizada por Laplaciano de Grafos para Edição Localizada de Imagens Guiada por Texto
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing
March 27, 2025
Autores: Achint Soni, Meet Soni, Sirisha Rambhatla
cs.AI
Resumo
A edição de imagens guiada por texto tem como objetivo modificar regiões específicas de uma imagem de acordo com instruções em linguagem natural, mantendo a estrutura geral e a fidelidade do fundo. Os métodos existentes utilizam máscaras derivadas de mapas de atenção cruzada gerados por modelos de difusão para identificar as regiões alvo para modificação. No entanto, como os mecanismos de atenção cruzada focam na relevância semântica, eles têm dificuldade em manter a integridade da imagem. Como resultado, esses métodos frequentemente carecem de consistência espacial, levando a artefatos de edição e distorções. Neste trabalho, abordamos essas limitações e introduzimos o LOCATEdit, que aprimora os mapas de atenção cruzada por meio de uma abordagem baseada em grafos, utilizando relações entre patches derivadas da auto-atenção para manter uma atenção suave e coerente entre as regiões da imagem, garantindo que as alterações sejam limitadas aos itens designados enquanto preservam a estrutura circundante. O \method supera consistentemente e substancialmente as baselines existentes no PIE-Bench, demonstrando seu desempenho de ponta e eficácia em várias tarefas de edição. O código pode ser encontrado em https://github.com/LOCATEdit/LOCATEdit/.
English
Text-guided image editing aims to modify specific regions of an image
according to natural language instructions while maintaining the general
structure and the background fidelity. Existing methods utilize masks derived
from cross-attention maps generated from diffusion models to identify the
target regions for modification. However, since cross-attention mechanisms
focus on semantic relevance, they struggle to maintain the image integrity. As
a result, these methods often lack spatial consistency, leading to editing
artifacts and distortions. In this work, we address these limitations and
introduce LOCATEdit, which enhances cross-attention maps through a graph-based
approach utilizing self-attention-derived patch relationships to maintain
smooth, coherent attention across image regions, ensuring that alterations are
limited to the designated items while retaining the surrounding structure.
\method consistently and substantially outperforms existing baselines on
PIE-Bench, demonstrating its state-of-the-art performance and effectiveness on
various editing tasks. Code can be found on
https://github.com/LOCATEdit/LOCATEdit/Summary
AI-Generated Summary