MAG-Edit: Lokalisierte Bildbearbeitung in komplexen Szenarien mittels maskenbasierter, aufmerksamkeitsangepasster Steuerung

papers.abstract

Aktuelle diffusionsbasierte Bildbearbeitungsansätze haben beeindruckende Bearbeitungsfähigkeiten bei Bildern mit einfachen Kompositionen gezeigt. Lokalisierte Bearbeitungen in komplexen Szenarien wurden in der Literatur jedoch noch nicht umfassend untersucht, obwohl die praktischen Anforderungen dafür stetig wachsen. Bestehende maskenbasierte Inpainting-Methoden sind nicht in der Lage, die zugrunde liegende Struktur innerhalb des Bearbeitungsbereichs zu erhalten. Gleichzeitig zeigen maskenfreie, auf Aufmerksamkeit basierende Methoden oft Bearbeitungslecks und Fehlausrichtungen bei komplexeren Kompositionen. In dieser Arbeit entwickeln wir MAG-Edit, eine trainingsfreie Optimierungsmethode für die Inferenzphase, die lokalisierte Bildbearbeitungen in komplexen Szenarien ermöglicht. Insbesondere optimiert MAG-Edit das Rausch-Latenzmerkmal in Diffusionsmodellen, indem zwei maskenbasierte Cross-Attention-Bedingungen des Bearbeitungstokens maximiert werden, was wiederum die lokale Ausrichtung mit dem gewünschten Prompt schrittweise verbessert. Umfangreiche quantitative und qualitative Experimente belegen die Effektivität unserer Methode bei der Erreichung von Textausrichtung und Strukturerhaltung für lokalisierte Bearbeitungen in komplexen Szenarien.

English

Recent diffusion-based image editing approaches have exhibited impressive editing capabilities in images with simple compositions. However, localized editing in complex scenarios has not been well-studied in the literature, despite its growing real-world demands. Existing mask-based inpainting methods fall short of retaining the underlying structure within the edit region. Meanwhile, mask-free attention-based methods often exhibit editing leakage and misalignment in more complex compositions. In this work, we develop MAG-Edit, a training-free, inference-stage optimization method, which enables localized image editing in complex scenarios. In particular, MAG-Edit optimizes the noise latent feature in diffusion models by maximizing two mask-based cross-attention constraints of the edit token, which in turn gradually enhances the local alignment with the desired prompt. Extensive quantitative and qualitative experiments demonstrate the effectiveness of our method in achieving both text alignment and structure preservation for localized editing within complex scenarios.

MAG-Edit: Lokalisierte Bildbearbeitung in komplexen Szenarien mittels maskenbasierter, aufmerksamkeitsangepasster Steuerung

MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance

papers.abstract

Support