LOCATEdit : Attention Croisée Optimisée par Laplacien de Graphe pour l'Édition Localisée d'Images Guidée par Texte
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing
March 27, 2025
Auteurs: Achint Soni, Meet Soni, Sirisha Rambhatla
cs.AI
Résumé
L'édition d'images guidée par texte vise à modifier des régions spécifiques d'une image selon des instructions en langage naturel tout en préservant la structure générale et la fidélité de l'arrière-plan. Les méthodes existantes utilisent des masques dérivés de cartes d'attention croisée générées par des modèles de diffusion pour identifier les régions cibles à modifier. Cependant, comme les mécanismes d'attention croisée se concentrent sur la pertinence sémantique, ils peinent à maintenir l'intégrité de l'image. Par conséquent, ces méthodes manquent souvent de cohérence spatiale, entraînant des artefacts et des distorsions lors de l'édition. Dans ce travail, nous abordons ces limitations et introduisons LOCATEdit, qui améliore les cartes d'attention croisée grâce à une approche basée sur des graphes exploitant les relations entre patches dérivées de l'auto-attention. Cela permet de maintenir une attention fluide et cohérente à travers les régions de l'image, garantissant que les modifications se limitent aux éléments désignés tout en conservant la structure environnante. \method surpasse systématiquement et significativement les méthodes de référence sur PIE-Bench, démontrant ses performances de pointe et son efficacité sur diverses tâches d'édition. Le code est disponible sur https://github.com/LOCATEdit/LOCATEdit/.
English
Text-guided image editing aims to modify specific regions of an image
according to natural language instructions while maintaining the general
structure and the background fidelity. Existing methods utilize masks derived
from cross-attention maps generated from diffusion models to identify the
target regions for modification. However, since cross-attention mechanisms
focus on semantic relevance, they struggle to maintain the image integrity. As
a result, these methods often lack spatial consistency, leading to editing
artifacts and distortions. In this work, we address these limitations and
introduce LOCATEdit, which enhances cross-attention maps through a graph-based
approach utilizing self-attention-derived patch relationships to maintain
smooth, coherent attention across image regions, ensuring that alterations are
limited to the designated items while retaining the surrounding structure.
\method consistently and substantially outperforms existing baselines on
PIE-Bench, demonstrating its state-of-the-art performance and effectiveness on
various editing tasks. Code can be found on
https://github.com/LOCATEdit/LOCATEdit/Summary
AI-Generated Summary