MAG-Edit: Edição Localizada de Imagens em Cenários Complexos via Orientação Ajustada por Atenção Baseada em Máscara
MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance
December 18, 2023
Autores: Qi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou
cs.AI
Resumo
Abordagens recentes de edição de imagens baseadas em difusão têm demonstrado capacidades impressionantes de edição em imagens com composições simples. No entanto, a edição localizada em cenários complexos não tem sido bem estudada na literatura, apesar de suas crescentes demandas no mundo real. Os métodos existentes de inpainting baseados em máscaras não conseguem reter a estrutura subjacente dentro da região editada. Enquanto isso, métodos baseados em atenção sem máscara frequentemente apresentam vazamento de edição e desalinhamento em composições mais complexas. Neste trabalho, desenvolvemos o MAG-Edit, um método de otimização em fase de inferência que não requer treinamento, permitindo a edição localizada de imagens em cenários complexos. Em particular, o MAG-Edit otimiza o recurso latente de ruído em modelos de difusão maximizando duas restrições de atenção cruzada baseadas em máscara do token de edição, o que, por sua vez, gradualmente melhora o alinhamento local com o prompt desejado. Experimentos quantitativos e qualitativos extensivos demonstram a eficácia do nosso método em alcançar tanto o alinhamento de texto quanto a preservação da estrutura para edição localizada em cenários complexos.
English
Recent diffusion-based image editing approaches have exhibited impressive
editing capabilities in images with simple compositions. However, localized
editing in complex scenarios has not been well-studied in the literature,
despite its growing real-world demands. Existing mask-based inpainting methods
fall short of retaining the underlying structure within the edit region.
Meanwhile, mask-free attention-based methods often exhibit editing leakage and
misalignment in more complex compositions. In this work, we develop
MAG-Edit, a training-free, inference-stage optimization method,
which enables localized image editing in complex scenarios. In particular,
MAG-Edit optimizes the noise latent feature in diffusion models by maximizing
two mask-based cross-attention constraints of the edit token, which in turn
gradually enhances the local alignment with the desired prompt. Extensive
quantitative and qualitative experiments demonstrate the effectiveness of our
method in achieving both text alignment and structure preservation for
localized editing within complex scenarios.