MAG-Edit: Edição Localizada de Imagens em Cenários Complexos via Orientação Ajustada por Atenção Baseada em Máscara

Resumo

Abordagens recentes de edição de imagens baseadas em difusão têm demonstrado capacidades impressionantes de edição em imagens com composições simples. No entanto, a edição localizada em cenários complexos não tem sido bem estudada na literatura, apesar de suas crescentes demandas no mundo real. Os métodos existentes de inpainting baseados em máscaras não conseguem reter a estrutura subjacente dentro da região editada. Enquanto isso, métodos baseados em atenção sem máscara frequentemente apresentam vazamento de edição e desalinhamento em composições mais complexas. Neste trabalho, desenvolvemos o MAG-Edit, um método de otimização em fase de inferência que não requer treinamento, permitindo a edição localizada de imagens em cenários complexos. Em particular, o MAG-Edit otimiza o recurso latente de ruído em modelos de difusão maximizando duas restrições de atenção cruzada baseadas em máscara do token de edição, o que, por sua vez, gradualmente melhora o alinhamento local com o prompt desejado. Experimentos quantitativos e qualitativos extensivos demonstram a eficácia do nosso método em alcançar tanto o alinhamento de texto quanto a preservação da estrutura para edição localizada em cenários complexos.

English

Recent diffusion-based image editing approaches have exhibited impressive editing capabilities in images with simple compositions. However, localized editing in complex scenarios has not been well-studied in the literature, despite its growing real-world demands. Existing mask-based inpainting methods fall short of retaining the underlying structure within the edit region. Meanwhile, mask-free attention-based methods often exhibit editing leakage and misalignment in more complex compositions. In this work, we develop MAG-Edit, a training-free, inference-stage optimization method, which enables localized image editing in complex scenarios. In particular, MAG-Edit optimizes the noise latent feature in diffusion models by maximizing two mask-based cross-attention constraints of the edit token, which in turn gradually enhances the local alignment with the desired prompt. Extensive quantitative and qualitative experiments demonstrate the effectiveness of our method in achieving both text alignment and structure preservation for localized editing within complex scenarios.

MAG-Edit: Edição Localizada de Imagens em Cenários Complexos via Orientação Ajustada por Atenção Baseada em Máscara

MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance

Resumo

Support