ChatPaper.aiChatPaper

LazyDrag: Обеспечение стабильного редактирования на основе перетаскивания в мультимодальных диффузионных трансформерах через явное соответствие

LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

September 15, 2025
Авторы: Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum
cs.AI

Аннотация

Зависимость от неявного сопоставления точек через механизм внимания стала ключевым ограничением в редактировании на основе перетаскивания, что приводит к фундаментальному компромиссу между ослабленной силой инверсии и дорогостоящей оптимизацией на этапе тестирования (TTO). Этот компромисс серьезно ограничивает генеративные возможности диффузионных моделей, подавляя высококачественное восстановление изображений и создание на основе текстовых указаний. В данной работе мы представляем LazyDrag — первый метод редактирования изображений на основе перетаскивания для мультимодальных диффузионных трансформеров, который полностью устраняет зависимость от неявного сопоставления точек. Конкретно, наш метод генерирует явную карту соответствий на основе пользовательских входных данных перетаскивания, которая служит надежной опорой для усиления контроля внимания. Эта надежная опора открывает возможность для стабильного процесса инверсии с полной силой, что является первым в задачах редактирования на основе перетаскивания. Это устраняет необходимость в TTO и раскрывает генеративные возможности моделей. Таким образом, LazyDrag естественным образом объединяет точный геометрический контроль с текстовыми указаниями, позволяя выполнять сложные правки, которые ранее были недоступны: открывать пасть собаки и восстанавливать её внутреннюю часть, генерировать новые объекты, такие как «теннисный мяч», или для неоднозначных перетаскиваний вносить контекстно-зависимые изменения, например, перемещать руку в карман. Кроме того, LazyDrag поддерживает многоэтапные рабочие процессы с одновременными операциями перемещения и масштабирования. Оцененный на DragBench, наш метод превосходит базовые подходы по точности перетаскивания и воспринимаемому качеству, что подтверждается метрикой VIEScore и оценкой людьми. LazyDrag не только устанавливает новый уровень производительности, но и прокладывает новый путь в парадигмах редактирования.
English
The reliance on implicit point matching via attention has become a core bottleneck in drag-based editing, resulting in a fundamental compromise on weakened inversion strength and costly test-time optimization (TTO). This compromise severely limits the generative capabilities of diffusion models, suppressing high-fidelity inpainting and text-guided creation. In this paper, we introduce LazyDrag, the first drag-based image editing method for Multi-Modal Diffusion Transformers, which directly eliminates the reliance on implicit point matching. In concrete terms, our method generates an explicit correspondence map from user drag inputs as a reliable reference to boost the attention control. This reliable reference opens the potential for a stable full-strength inversion process, which is the first in the drag-based editing task. It obviates the necessity for TTO and unlocks the generative capability of models. Therefore, LazyDrag naturally unifies precise geometric control with text guidance, enabling complex edits that were previously out of reach: opening the mouth of a dog and inpainting its interior, generating new objects like a ``tennis ball'', or for ambiguous drags, making context-aware changes like moving a hand into a pocket. Additionally, LazyDrag supports multi-round workflows with simultaneous move and scale operations. Evaluated on the DragBench, our method outperforms baselines in drag accuracy and perceptual quality, as validated by VIEScore and human evaluation. LazyDrag not only establishes new state-of-the-art performance, but also paves a new way to editing paradigms.
PDF193September 16, 2025