LOCATEdit: Atención Cruzada Optimizada con Laplaciano de Grafos para Edición Localizada de Imágenes Guiada por Texto
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing
March 27, 2025
Autores: Achint Soni, Meet Soni, Sirisha Rambhatla
cs.AI
Resumen
La edición de imágenes guiada por texto tiene como objetivo modificar regiones específicas de una imagen según instrucciones en lenguaje natural, manteniendo la estructura general y la fidelidad del fondo. Los métodos existentes utilizan máscaras derivadas de mapas de atención cruzada generados por modelos de difusión para identificar las regiones objetivo que deben modificarse. Sin embargo, dado que los mecanismos de atención cruzada se centran en la relevancia semántica, tienen dificultades para mantener la integridad de la imagen. Como resultado, estos métodos a menudo carecen de consistencia espacial, lo que lleva a artefactos y distorsiones en la edición. En este trabajo, abordamos estas limitaciones e introducimos LOCATEdit, que mejora los mapas de atención cruzada mediante un enfoque basado en grafos que utiliza relaciones entre parches derivadas de la auto-atención para mantener una atención suave y coherente en las regiones de la imagen, asegurando que las alteraciones se limiten a los elementos designados mientras se conserva la estructura circundante. \method supera de manera consistente y sustancial a los métodos de referencia en PIE-Bench, demostrando su rendimiento de vanguardia y efectividad en diversas tareas de edición. El código está disponible en https://github.com/LOCATEdit/LOCATEdit/.
English
Text-guided image editing aims to modify specific regions of an image
according to natural language instructions while maintaining the general
structure and the background fidelity. Existing methods utilize masks derived
from cross-attention maps generated from diffusion models to identify the
target regions for modification. However, since cross-attention mechanisms
focus on semantic relevance, they struggle to maintain the image integrity. As
a result, these methods often lack spatial consistency, leading to editing
artifacts and distortions. In this work, we address these limitations and
introduce LOCATEdit, which enhances cross-attention maps through a graph-based
approach utilizing self-attention-derived patch relationships to maintain
smooth, coherent attention across image regions, ensuring that alterations are
limited to the designated items while retaining the surrounding structure.
\method consistently and substantially outperforms existing baselines on
PIE-Bench, demonstrating its state-of-the-art performance and effectiveness on
various editing tasks. Code can be found on
https://github.com/LOCATEdit/LOCATEdit/Summary
AI-Generated Summary