LazyDrag: Het mogelijk maken van stabiele drag-gebaseerde bewerkingen op multi-modale diffusie Transformers via expliciete correspondentie
LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence
September 15, 2025
Auteurs: Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum
cs.AI
Samenvatting
De afhankelijkheid van impliciete puntmatching via aandacht is een kernbeperking geworden in drag-based editing, wat resulteert in een fundamenteel compromis tussen verzwakte inversiekracht en kostbare test-time optimalisatie (TTO). Dit compromis beperkt de generatieve mogelijkheden van diffusiemodellen aanzienlijk, waardoor hoogwaardige inpainting en tekstgeleide creatie worden onderdrukt. In dit artikel introduceren we LazyDrag, de eerste drag-based beeldbewerkingsmethode voor Multi-Modale Diffusie Transformers, die de afhankelijkheid van impliciete puntmatching direct elimineert. Concreet genereert onze methode een expliciete correspondentiekaart op basis van gebruikersdraginputs als een betrouwbare referentie om de aandachtcontrole te versterken. Deze betrouwbare referentie opent de mogelijkheid voor een stabiel inversieproces op volle sterkte, wat een primeur is in de drag-based bewerkingstaak. Het maakt TTO overbodig en ontgrendelt de generatieve capaciteit van modellen. Daarom verenigt LazyDrag van nature precieze geometrische controle met tekstbegeleiding, waardoor complexe bewerkingen mogelijk worden die voorheen onbereikbaar waren: de mond van een hond openen en het interieur inpainten, nieuwe objecten genereren zoals een "tennisbal", of bij ambigue drags contextbewuste wijzigingen aanbrengen zoals een hand in een zak steken. Bovendien ondersteunt LazyDrag multi-round workflows met gelijktijdige verplaats- en schaalbewerkingen. Geëvalueerd op de DragBench, overtreft onze methode de baseline-methoden in drag-nauwkeurigheid en perceptuele kwaliteit, zoals gevalideerd door VIEScore en menselijke evaluatie. LazyDrag vestigt niet alleen nieuwe state-of-the-art prestaties, maar baant ook een nieuwe weg naar bewerkingsparadigma's.
English
The reliance on implicit point matching via attention has become a core
bottleneck in drag-based editing, resulting in a fundamental compromise on
weakened inversion strength and costly test-time optimization (TTO). This
compromise severely limits the generative capabilities of diffusion models,
suppressing high-fidelity inpainting and text-guided creation. In this paper,
we introduce LazyDrag, the first drag-based image editing method for
Multi-Modal Diffusion Transformers, which directly eliminates the reliance on
implicit point matching. In concrete terms, our method generates an explicit
correspondence map from user drag inputs as a reliable reference to boost the
attention control. This reliable reference opens the potential for a stable
full-strength inversion process, which is the first in the drag-based editing
task. It obviates the necessity for TTO and unlocks the generative capability
of models. Therefore, LazyDrag naturally unifies precise geometric control with
text guidance, enabling complex edits that were previously out of reach:
opening the mouth of a dog and inpainting its interior, generating new objects
like a ``tennis ball'', or for ambiguous drags, making context-aware changes
like moving a hand into a pocket. Additionally, LazyDrag supports multi-round
workflows with simultaneous move and scale operations. Evaluated on the
DragBench, our method outperforms baselines in drag accuracy and perceptual
quality, as validated by VIEScore and human evaluation. LazyDrag not only
establishes new state-of-the-art performance, but also paves a new way to
editing paradigms.