MAG-Edit : Édition d'images localisée dans des scénarios complexes via un guidage ajusté par attention basé sur des masques

MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance

December 18, 2023
Auteurs: Qi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou
cs.AI

Résumé

Les approches récentes de modification d'images basées sur la diffusion ont démontré des capacités impressionnantes pour éditer des images à compositions simples. Cependant, l'édition localisée dans des scénarios complexes n'a pas été suffisamment étudiée dans la littérature, malgré une demande croissante dans le monde réel. Les méthodes existantes de réparation basées sur des masques ne parviennent pas à préserver la structure sous-jacente dans la région éditée. Par ailleurs, les méthodes sans masque basées sur l'attention présentent souvent des fuites d'édition et des désalignements dans des compositions plus complexes. Dans ce travail, nous développons MAG-Edit, une méthode d'optimisation au stade de l'inférence ne nécessitant pas d'entraînement, qui permet l'édition localisée d'images dans des scénarios complexes. En particulier, MAG-Edit optimise la caractéristique latente du bruit dans les modèles de diffusion en maximisant deux contraintes d'attention croisée basées sur un masque pour le token d'édition, ce qui améliore progressivement l'alignement local avec l'invite souhaitée. Des expériences quantitatives et qualitatives approfondies démontrent l'efficacité de notre méthode pour atteindre à la fois l'alignement textuel et la préservation de la structure lors de l'édition localisée dans des scénarios complexes.
English
Recent diffusion-based image editing approaches have exhibited impressive editing capabilities in images with simple compositions. However, localized editing in complex scenarios has not been well-studied in the literature, despite its growing real-world demands. Existing mask-based inpainting methods fall short of retaining the underlying structure within the edit region. Meanwhile, mask-free attention-based methods often exhibit editing leakage and misalignment in more complex compositions. In this work, we develop MAG-Edit, a training-free, inference-stage optimization method, which enables localized image editing in complex scenarios. In particular, MAG-Edit optimizes the noise latent feature in diffusion models by maximizing two mask-based cross-attention constraints of the edit token, which in turn gradually enhances the local alignment with the desired prompt. Extensive quantitative and qualitative experiments demonstrate the effectiveness of our method in achieving both text alignment and structure preservation for localized editing within complex scenarios.
PDF111December 15, 2024