LazyDrag: Ermöglichung stabiler Drag-basierter Bearbeitung auf Multi-Modalen Diffusion Transformern durch explizite Korrespondenz
LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence
September 15, 2025
papers.authors: Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum
cs.AI
papers.abstract
Die Abhängigkeit von impliziter Punktzuordnung durch Attention hat sich zu einem zentralen Engpass beim Drag-basierten Bearbeiten entwickelt, was zu einem grundlegenden Kompromiss zwischen geschwächter Inversionsstärke und kostspieliger Testzeitoptimierung (TTO) führt. Dieser Kompromiss schränkt die generativen Fähigkeiten von Diffusionsmodellen erheblich ein und unterdrückt hochwertige Inpainting- und textgesteuerte Erstellungsprozesse. In diesem Artikel stellen wir LazyDrag vor, die erste Drag-basierte Bildbearbeitungsmethode für Multi-Modale Diffusions-Transformer, die die Abhängigkeit von impliziter Punktzuordnung direkt beseitigt. Konkret generiert unsere Methode eine explizite Korrespondenzkarte aus Benutzer-Drag-Eingaben als zuverlässige Referenz zur Verbesserung der Attention-Steuerung. Diese zuverlässige Referenz eröffnet das Potenzial für einen stabilen Inversionsprozess mit voller Stärke, der erstmals in der Drag-basierten Bearbeitungsaufgabe realisiert wird. Sie macht TTO überflüssig und entfesselt die generative Fähigkeit der Modelle. Daher vereint LazyDrag präzise geometrische Kontrolle mit Textführung und ermöglicht komplexe Bearbeitungen, die bisher unerreichbar waren: das Öffnen des Mauls eines Hundes und das Inpainting seines Inneren, das Erzeugen neuer Objekte wie eines „Tennisballs“ oder bei mehrdeutigen Drags kontextbewusste Änderungen wie das Bewegen einer Hand in eine Tasche. Zusätzlich unterstützt LazyDrag mehrstufige Workflows mit gleichzeitigen Verschiebungs- und Skalierungsoperationen. Auf der DragBench evaluiert, übertrifft unsere Methode die Baselines in Bezug auf Drag-Genauigkeit und wahrgenommene Qualität, wie durch VIEScore und menschliche Bewertung bestätigt wird. LazyDrag etabliert nicht nur neue State-of-the-Art-Leistungen, sondern ebnet auch einen neuen Weg für Bearbeitungsparadigmen.
English
The reliance on implicit point matching via attention has become a core
bottleneck in drag-based editing, resulting in a fundamental compromise on
weakened inversion strength and costly test-time optimization (TTO). This
compromise severely limits the generative capabilities of diffusion models,
suppressing high-fidelity inpainting and text-guided creation. In this paper,
we introduce LazyDrag, the first drag-based image editing method for
Multi-Modal Diffusion Transformers, which directly eliminates the reliance on
implicit point matching. In concrete terms, our method generates an explicit
correspondence map from user drag inputs as a reliable reference to boost the
attention control. This reliable reference opens the potential for a stable
full-strength inversion process, which is the first in the drag-based editing
task. It obviates the necessity for TTO and unlocks the generative capability
of models. Therefore, LazyDrag naturally unifies precise geometric control with
text guidance, enabling complex edits that were previously out of reach:
opening the mouth of a dog and inpainting its interior, generating new objects
like a ``tennis ball'', or for ambiguous drags, making context-aware changes
like moving a hand into a pocket. Additionally, LazyDrag supports multi-round
workflows with simultaneous move and scale operations. Evaluated on the
DragBench, our method outperforms baselines in drag accuracy and perceptual
quality, as validated by VIEScore and human evaluation. LazyDrag not only
establishes new state-of-the-art performance, but also paves a new way to
editing paradigms.