ChatPaper.aiChatPaper

LazyDrag: Habilitación de Edición Basada en Arrastre Estable en Transformadores de Difusión Multimodal mediante Correspondencia Explícita

LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

September 15, 2025
Autores: Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum
cs.AI

Resumen

La dependencia en la coincidencia implícita de puntos mediante atención se ha convertido en un cuello de botella fundamental en la edición basada en arrastre, lo que resulta en un compromiso básico entre la fuerza de inversión debilitada y la costosa optimización en tiempo de prueba (TTO, por sus siglas en inglés). Este compromiso limita severamente las capacidades generativas de los modelos de difusión, suprimiendo la restauración de alta fidelidad y la creación guiada por texto. En este artículo, presentamos LazyDrag, el primer método de edición de imágenes basado en arrastre para Transformadores de Difusión Multi-Modal, que elimina directamente la dependencia en la coincidencia implícita de puntos. En términos concretos, nuestro método genera un mapa de correspondencia explícito a partir de las entradas de arrastre del usuario como una referencia confiable para potenciar el control de atención. Esta referencia confiable abre el potencial para un proceso de inversión de fuerza completa y estable, siendo el primero en la tarea de edición basada en arrastre. Elimina la necesidad de TTO y desbloquea la capacidad generativa de los modelos. Por lo tanto, LazyDrag unifica de manera natural el control geométrico preciso con la guía de texto, permitiendo ediciones complejas que antes eran inalcanzables: abrir la boca de un perro y restaurar su interior, generar nuevos objetos como una "pelota de tenis" o, para arrastres ambiguos, realizar cambios conscientes del contexto, como mover una mano a un bolsillo. Además, LazyDrag admite flujos de trabajo de múltiples rondas con operaciones simultáneas de movimiento y escala. Evaluado en DragBench, nuestro método supera a las líneas base en precisión de arrastre y calidad perceptual, validado por VIEScore y evaluación humana. LazyDrag no solo establece un nuevo estado del arte en rendimiento, sino que también allana un nuevo camino hacia paradigmas de edición.
English
The reliance on implicit point matching via attention has become a core bottleneck in drag-based editing, resulting in a fundamental compromise on weakened inversion strength and costly test-time optimization (TTO). This compromise severely limits the generative capabilities of diffusion models, suppressing high-fidelity inpainting and text-guided creation. In this paper, we introduce LazyDrag, the first drag-based image editing method for Multi-Modal Diffusion Transformers, which directly eliminates the reliance on implicit point matching. In concrete terms, our method generates an explicit correspondence map from user drag inputs as a reliable reference to boost the attention control. This reliable reference opens the potential for a stable full-strength inversion process, which is the first in the drag-based editing task. It obviates the necessity for TTO and unlocks the generative capability of models. Therefore, LazyDrag naturally unifies precise geometric control with text guidance, enabling complex edits that were previously out of reach: opening the mouth of a dog and inpainting its interior, generating new objects like a ``tennis ball'', or for ambiguous drags, making context-aware changes like moving a hand into a pocket. Additionally, LazyDrag supports multi-round workflows with simultaneous move and scale operations. Evaluated on the DragBench, our method outperforms baselines in drag accuracy and perceptual quality, as validated by VIEScore and human evaluation. LazyDrag not only establishes new state-of-the-art performance, but also paves a new way to editing paradigms.
PDF143September 16, 2025