LazyDrag: Abilitazione di un'editing basato sul trascinamento stabile su trasformatori di diffusione multi-modale tramite corrispondenza esplicita
LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence
September 15, 2025
Autori: Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum
cs.AI
Abstract
La dipendenza dalla corrispondenza implicita di punti tramite l'attenzione è diventata un collo di bottiglia fondamentale nell'editing basato sul trascinamento, portando a un compromesso essenziale tra una forza di inversione indebolita e un'ottimizzazione costosa in fase di test (TTO). Questo compromesso limita gravemente le capacità generative dei modelli di diffusione, sopprimendo l'inpainting ad alta fedeltà e la creazione guidata da testo. In questo articolo, introduciamo LazyDrag, il primo metodo di editing di immagini basato sul trascinamento per i Multi-Modal Diffusion Transformers, che elimina direttamente la dipendenza dalla corrispondenza implicita di punti. In termini concreti, il nostro metodo genera una mappa di corrispondenza esplicita dagli input di trascinamento dell'utente come riferimento affidabile per potenziare il controllo dell'attenzione. Questo riferimento affidabile apre la possibilità per un processo di inversione stabile a piena forza, il primo nel compito di editing basato sul trascinamento. Esso elimina la necessità di TTO e sblocca la capacità generativa dei modelli. Pertanto, LazyDrag unisce naturalmente il controllo geometrico preciso con la guida del testo, consentendo modifiche complesse che prima erano irraggiungibili: aprire la bocca di un cane e fare inpainting del suo interno, generare nuovi oggetti come una "palla da tennis", o per trascinamenti ambigui, apportare cambiamenti contestuali come muovere una mano in una tasca. Inoltre, LazyDrag supporta flussi di lavoro multi-round con operazioni simultanee di spostamento e ridimensionamento. Valutato su DragBench, il nostro metodo supera i baseline in termini di precisione di trascinamento e qualità percettiva, come validato da VIEScore e valutazione umana. LazyDrag non solo stabilisce nuove prestazioni all'avanguardia, ma apre anche una nuova strada ai paradigmi di editing.
English
The reliance on implicit point matching via attention has become a core
bottleneck in drag-based editing, resulting in a fundamental compromise on
weakened inversion strength and costly test-time optimization (TTO). This
compromise severely limits the generative capabilities of diffusion models,
suppressing high-fidelity inpainting and text-guided creation. In this paper,
we introduce LazyDrag, the first drag-based image editing method for
Multi-Modal Diffusion Transformers, which directly eliminates the reliance on
implicit point matching. In concrete terms, our method generates an explicit
correspondence map from user drag inputs as a reliable reference to boost the
attention control. This reliable reference opens the potential for a stable
full-strength inversion process, which is the first in the drag-based editing
task. It obviates the necessity for TTO and unlocks the generative capability
of models. Therefore, LazyDrag naturally unifies precise geometric control with
text guidance, enabling complex edits that were previously out of reach:
opening the mouth of a dog and inpainting its interior, generating new objects
like a ``tennis ball'', or for ambiguous drags, making context-aware changes
like moving a hand into a pocket. Additionally, LazyDrag supports multi-round
workflows with simultaneous move and scale operations. Evaluated on the
DragBench, our method outperforms baselines in drag accuracy and perceptual
quality, as validated by VIEScore and human evaluation. LazyDrag not only
establishes new state-of-the-art performance, but also paves a new way to
editing paradigms.