MAG-Edit: Lokalisierte Bildbearbeitung in komplexen Szenarien mittels maskenbasierter, aufmerksamkeitsangepasster Steuerung
MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance
December 18, 2023
Autoren: Qi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou
cs.AI
Zusammenfassung
Aktuelle diffusionsbasierte Bildbearbeitungsansätze haben beeindruckende Bearbeitungsfähigkeiten bei Bildern mit einfachen Kompositionen gezeigt. Lokalisierte Bearbeitungen in komplexen Szenarien wurden in der Literatur jedoch noch nicht umfassend untersucht, obwohl die praktischen Anforderungen dafür stetig wachsen. Bestehende maskenbasierte Inpainting-Methoden sind nicht in der Lage, die zugrunde liegende Struktur innerhalb des Bearbeitungsbereichs zu erhalten. Gleichzeitig zeigen maskenfreie, auf Aufmerksamkeit basierende Methoden oft Bearbeitungslecks und Fehlausrichtungen bei komplexeren Kompositionen. In dieser Arbeit entwickeln wir MAG-Edit, eine trainingsfreie Optimierungsmethode für die Inferenzphase, die lokalisierte Bildbearbeitungen in komplexen Szenarien ermöglicht. Insbesondere optimiert MAG-Edit das Rausch-Latenzmerkmal in Diffusionsmodellen, indem zwei maskenbasierte Cross-Attention-Bedingungen des Bearbeitungstokens maximiert werden, was wiederum die lokale Ausrichtung mit dem gewünschten Prompt schrittweise verbessert. Umfangreiche quantitative und qualitative Experimente belegen die Effektivität unserer Methode bei der Erreichung von Textausrichtung und Strukturerhaltung für lokalisierte Bearbeitungen in komplexen Szenarien.
English
Recent diffusion-based image editing approaches have exhibited impressive
editing capabilities in images with simple compositions. However, localized
editing in complex scenarios has not been well-studied in the literature,
despite its growing real-world demands. Existing mask-based inpainting methods
fall short of retaining the underlying structure within the edit region.
Meanwhile, mask-free attention-based methods often exhibit editing leakage and
misalignment in more complex compositions. In this work, we develop
MAG-Edit, a training-free, inference-stage optimization method,
which enables localized image editing in complex scenarios. In particular,
MAG-Edit optimizes the noise latent feature in diffusion models by maximizing
two mask-based cross-attention constraints of the edit token, which in turn
gradually enhances the local alignment with the desired prompt. Extensive
quantitative and qualitative experiments demonstrate the effectiveness of our
method in achieving both text alignment and structure preservation for
localized editing within complex scenarios.