LazyDrag : Permettre une édition stable par glissement sur les transformeurs de diffusion multi-modaux via une correspondance explicite
LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence
September 15, 2025
papers.authors: Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum
cs.AI
papers.abstract
La dépendance à l'appariement implicite de points via l'attention est devenue un goulot d'étranglement central dans l'édition basée sur le glissement, entraînant un compromis fondamental entre une force d'inversion affaiblie et une optimisation coûteuse au moment du test (TTO). Ce compromis limite sévèrement les capacités génératives des modèles de diffusion, supprimant la haute fidélité dans l'inpainting et la création guidée par texte. Dans cet article, nous présentons LazyDrag, la première méthode d'édition d'images basée sur le glissement pour les Transformers de Diffusion Multi-Modale, qui élimine directement la dépendance à l'appariement implicite de points. Concrètement, notre méthode génère une carte de correspondance explicite à partir des entrées de glissement de l'utilisateur comme référence fiable pour renforcer le contrôle de l'attention. Cette référence fiable ouvre la possibilité d'un processus d'inversion stable à pleine puissance, une première dans la tâche d'édition basée sur le glissement. Elle rend inutile la nécessité de TTO et débloque la capacité générative des modèles. Par conséquent, LazyDrag unifie naturellement le contrôle géométrique précis avec le guidage par texte, permettant des modifications complexes auparavant inaccessibles : ouvrir la gueule d'un chien et inpainter son intérieur, générer de nouveaux objets comme une « balle de tennis », ou pour des glissements ambigus, effectuer des changements conscients du contexte comme déplacer une main dans une poche. De plus, LazyDrag prend en charge des workflows multi-tours avec des opérations simultanées de déplacement et de mise à l'échelle. Évalué sur DragBench, notre méthode surpasse les bases de référence en précision de glissement et en qualité perceptuelle, comme validé par VIEScore et l'évaluation humaine. LazyDrag établit non seulement de nouvelles performances de pointe, mais ouvre également une nouvelle voie aux paradigmes d'édition.
English
The reliance on implicit point matching via attention has become a core
bottleneck in drag-based editing, resulting in a fundamental compromise on
weakened inversion strength and costly test-time optimization (TTO). This
compromise severely limits the generative capabilities of diffusion models,
suppressing high-fidelity inpainting and text-guided creation. In this paper,
we introduce LazyDrag, the first drag-based image editing method for
Multi-Modal Diffusion Transformers, which directly eliminates the reliance on
implicit point matching. In concrete terms, our method generates an explicit
correspondence map from user drag inputs as a reliable reference to boost the
attention control. This reliable reference opens the potential for a stable
full-strength inversion process, which is the first in the drag-based editing
task. It obviates the necessity for TTO and unlocks the generative capability
of models. Therefore, LazyDrag naturally unifies precise geometric control with
text guidance, enabling complex edits that were previously out of reach:
opening the mouth of a dog and inpainting its interior, generating new objects
like a ``tennis ball'', or for ambiguous drags, making context-aware changes
like moving a hand into a pocket. Additionally, LazyDrag supports multi-round
workflows with simultaneous move and scale operations. Evaluated on the
DragBench, our method outperforms baselines in drag accuracy and perceptual
quality, as validated by VIEScore and human evaluation. LazyDrag not only
establishes new state-of-the-art performance, but also paves a new way to
editing paradigms.