LazyDrag: Habilitando Edição Baseada em Arrasto Estável em Transformadores de Difusão Multimodal via Correspondência Explícita
LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence
September 15, 2025
Autores: Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum
cs.AI
Resumo
A dependência no emparelhamento implícito de pontos via atenção tornou-se um gargalo central na edição baseada em arrasto, resultando em um compromisso fundamental entre a força de inversão enfraquecida e a otimização custosa em tempo de teste (TTO). Esse compromisso limita severamente as capacidades generativas dos modelos de difusão, suprimindo a restauração de alta fidelidade e a criação guiada por texto. Neste artigo, introduzimos o LazyDrag, o primeiro método de edição de imagens baseado em arrasto para Transformers de Difusão Multi-Modal, que elimina diretamente a dependência do emparelhamento implícito de pontos. Em termos concretos, nosso método gera um mapa de correspondência explícito a partir das entradas de arrasto do usuário como uma referência confiável para impulsionar o controle de atenção. Essa referência confiável abre o potencial para um processo de inversão estável e de força total, o primeiro na tarefa de edição baseada em arrasto. Isso dispensa a necessidade de TTO e libera a capacidade generativa dos modelos. Portanto, o LazyDrag naturalmente unifica o controle geométrico preciso com a orientação por texto, permitindo edições complexas que antes eram inatingíveis: abrir a boca de um cachorro e restaurar seu interior, gerar novos objetos como uma "bola de tênis" ou, para arrastos ambíguos, fazer alterações conscientes do contexto, como mover uma mão para o bolso. Além disso, o LazyDrag suporta fluxos de trabalho de múltiplas rodadas com operações simultâneas de movimento e escala. Avaliado no DragBench, nosso método supera as linhas de base em precisão de arrasto e qualidade perceptual, conforme validado pelo VIEScore e pela avaliação humana. O LazyDrag não apenas estabelece um novo estado da arte em desempenho, mas também abre um novo caminho para paradigmas de edição.
English
The reliance on implicit point matching via attention has become a core
bottleneck in drag-based editing, resulting in a fundamental compromise on
weakened inversion strength and costly test-time optimization (TTO). This
compromise severely limits the generative capabilities of diffusion models,
suppressing high-fidelity inpainting and text-guided creation. In this paper,
we introduce LazyDrag, the first drag-based image editing method for
Multi-Modal Diffusion Transformers, which directly eliminates the reliance on
implicit point matching. In concrete terms, our method generates an explicit
correspondence map from user drag inputs as a reliable reference to boost the
attention control. This reliable reference opens the potential for a stable
full-strength inversion process, which is the first in the drag-based editing
task. It obviates the necessity for TTO and unlocks the generative capability
of models. Therefore, LazyDrag naturally unifies precise geometric control with
text guidance, enabling complex edits that were previously out of reach:
opening the mouth of a dog and inpainting its interior, generating new objects
like a ``tennis ball'', or for ambiguous drags, making context-aware changes
like moving a hand into a pocket. Additionally, LazyDrag supports multi-round
workflows with simultaneous move and scale operations. Evaluated on the
DragBench, our method outperforms baselines in drag accuracy and perceptual
quality, as validated by VIEScore and human evaluation. LazyDrag not only
establishes new state-of-the-art performance, but also paves a new way to
editing paradigms.