LOCATEdit: Оптимизация кросс-внимания с использованием графового лапласиана для локализованного редактирования изображений на основе текста
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing
March 27, 2025
Авторы: Achint Soni, Meet Soni, Sirisha Rambhatla
cs.AI
Аннотация
Редактирование изображений на основе текстовых инструкций направлено на изменение определенных областей изображения в соответствии с естественными языковыми указаниями, сохраняя при этом общую структуру и фоновую достоверность. Существующие методы используют маски, полученные из карт кросс-внимания, сгенерированных моделями диффузии, для идентификации целевых областей, подлежащих изменению. Однако, поскольку механизмы кросс-внимания сосредоточены на семантической релевантности, они испытывают трудности с сохранением целостности изображения. В результате эти методы часто страдают от недостатка пространственной согласованности, что приводит к артефактам и искажениям при редактировании. В данной работе мы устраняем эти ограничения и представляем LOCATEdit, который улучшает карты кросс-внимания с помощью графового подхода, использующего отношения между патчами, полученные из механизмов самовнимания, для поддержания плавного и согласованного внимания между областями изображения. Это гарантирует, что изменения ограничиваются указанными объектами, сохраняя при этом окружающую структуру. \method стабильно и значительно превосходит существующие базовые методы на PIE-Bench, демонстрируя передовую производительность и эффективность в различных задачах редактирования. Код доступен по адресу https://github.com/LOCATEdit/LOCATEdit/.
English
Text-guided image editing aims to modify specific regions of an image
according to natural language instructions while maintaining the general
structure and the background fidelity. Existing methods utilize masks derived
from cross-attention maps generated from diffusion models to identify the
target regions for modification. However, since cross-attention mechanisms
focus on semantic relevance, they struggle to maintain the image integrity. As
a result, these methods often lack spatial consistency, leading to editing
artifacts and distortions. In this work, we address these limitations and
introduce LOCATEdit, which enhances cross-attention maps through a graph-based
approach utilizing self-attention-derived patch relationships to maintain
smooth, coherent attention across image regions, ensuring that alterations are
limited to the designated items while retaining the surrounding structure.
\method consistently and substantially outperforms existing baselines on
PIE-Bench, demonstrating its state-of-the-art performance and effectiveness on
various editing tasks. Code can be found on
https://github.com/LOCATEdit/LOCATEdit/Summary
AI-Generated Summary