MAG-Edit: Edición de imágenes localizada en escenarios complejos mediante guía ajustada por atención basada en máscaras
MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance
December 18, 2023
Autores: Qi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou
cs.AI
Resumen
Los enfoques recientes de edición de imágenes basados en difusión han demostrado capacidades impresionantes en imágenes con composiciones simples. Sin embargo, la edición localizada en escenarios complejos no ha sido bien estudiada en la literatura, a pesar de sus crecientes demandas en el mundo real. Los métodos existentes de inpainting basados en máscaras no logran retener la estructura subyacente dentro de la región editada. Mientras tanto, los métodos basados en atención sin máscara a menudo presentan fugas de edición y desalineación en composiciones más complejas. En este trabajo, desarrollamos MAG-Edit, un método de optimización en la etapa de inferencia que no requiere entrenamiento, el cual permite la edición localizada de imágenes en escenarios complejos. En particular, MAG-Edit optimiza la característica latente de ruido en los modelos de difusión maximizando dos restricciones de atención cruzada basadas en máscaras del token de edición, lo que a su vez mejora gradualmente la alineación local con el texto deseado. Experimentos cuantitativos y cualitativos extensos demuestran la efectividad de nuestro método para lograr tanto la alineación textual como la preservación de la estructura en la edición localizada dentro de escenarios complejos.
English
Recent diffusion-based image editing approaches have exhibited impressive
editing capabilities in images with simple compositions. However, localized
editing in complex scenarios has not been well-studied in the literature,
despite its growing real-world demands. Existing mask-based inpainting methods
fall short of retaining the underlying structure within the edit region.
Meanwhile, mask-free attention-based methods often exhibit editing leakage and
misalignment in more complex compositions. In this work, we develop
MAG-Edit, a training-free, inference-stage optimization method,
which enables localized image editing in complex scenarios. In particular,
MAG-Edit optimizes the noise latent feature in diffusion models by maximizing
two mask-based cross-attention constraints of the edit token, which in turn
gradually enhances the local alignment with the desired prompt. Extensive
quantitative and qualitative experiments demonstrate the effectiveness of our
method in achieving both text alignment and structure preservation for
localized editing within complex scenarios.