MAG-Edit : Édition d'images localisée dans des scénarios complexes via un guidage ajusté par attention basé sur des masques
MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance
December 18, 2023
Auteurs: Qi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou
cs.AI
Résumé
Les approches récentes de modification d'images basées sur la diffusion ont démontré des capacités impressionnantes pour éditer des images à compositions simples. Cependant, l'édition localisée dans des scénarios complexes n'a pas été suffisamment étudiée dans la littérature, malgré une demande croissante dans le monde réel. Les méthodes existantes de réparation basées sur des masques ne parviennent pas à préserver la structure sous-jacente dans la région éditée. Par ailleurs, les méthodes sans masque basées sur l'attention présentent souvent des fuites d'édition et des désalignements dans des compositions plus complexes. Dans ce travail, nous développons MAG-Edit, une méthode d'optimisation au stade de l'inférence ne nécessitant pas d'entraînement, qui permet l'édition localisée d'images dans des scénarios complexes. En particulier, MAG-Edit optimise la caractéristique latente du bruit dans les modèles de diffusion en maximisant deux contraintes d'attention croisée basées sur un masque pour le token d'édition, ce qui améliore progressivement l'alignement local avec l'invite souhaitée. Des expériences quantitatives et qualitatives approfondies démontrent l'efficacité de notre méthode pour atteindre à la fois l'alignement textuel et la préservation de la structure lors de l'édition localisée dans des scénarios complexes.
English
Recent diffusion-based image editing approaches have exhibited impressive
editing capabilities in images with simple compositions. However, localized
editing in complex scenarios has not been well-studied in the literature,
despite its growing real-world demands. Existing mask-based inpainting methods
fall short of retaining the underlying structure within the edit region.
Meanwhile, mask-free attention-based methods often exhibit editing leakage and
misalignment in more complex compositions. In this work, we develop
MAG-Edit, a training-free, inference-stage optimization method,
which enables localized image editing in complex scenarios. In particular,
MAG-Edit optimizes the noise latent feature in diffusion models by maximizing
two mask-based cross-attention constraints of the edit token, which in turn
gradually enhances the local alignment with the desired prompt. Extensive
quantitative and qualitative experiments demonstrate the effectiveness of our
method in achieving both text alignment and structure preservation for
localized editing within complex scenarios.