ChatPaper.aiChatPaper

LazyDrag: 明示的対応関係によるマルチモーダル拡散トランスフォーマー上の安定したドラッグベース編集の実現

LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

September 15, 2025
著者: Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum
cs.AI

要旨

ドラッグベースの編集における注意機構を介した暗黙的な点マッチングへの依存は、主要なボトルネックとなっており、インバージョン強度の低下と高コストなテスト時最適化(TTO)という根本的な妥協を引き起こしています。この妥協は拡散モデルの生成能力を大幅に制限し、高忠実度のインペインティングやテキストガイド付き生成を抑制しています。本論文では、マルチモーダル拡散トランスフォーマー向けの初のドラッグベース画像編集手法であるLazyDragを紹介します。この手法は、暗黙的な点マッチングへの依存を直接排除します。具体的には、ユーザーのドラッグ入力を基に明示的な対応マップを生成し、注意制御を強化する信頼性の高い参照として機能させます。この信頼性の高い参照により、ドラッグベース編集タスクにおいて初めて、安定したフル強度のインバージョンプロセスが可能になります。これによりTTOの必要性がなくなり、モデルの生成能力が解放されます。したがって、LazyDragは自然に精密な幾何学的制御とテキストガイダンスを統合し、これまで実現が困難だった複雑な編集を可能にします:犬の口を開けて内部をインペイントする、「テニスボール」のような新しいオブジェクトを生成する、あるいは曖昧なドラッグに対して、手をポケットに入れるような文脈を考慮した変更を行うなどです。さらに、LazyDragは移動とスケール操作を同時に行うマルチラウンドワークフローをサポートします。DragBenchでの評価において、本手法はドラッグ精度と知覚品質の両方でベースラインを上回り、VIEScoreと人間による評価によってその有効性が検証されました。LazyDragは新たな最先端の性能を確立するだけでなく、編集パラダイムへの新たな道を切り開きます。
English
The reliance on implicit point matching via attention has become a core bottleneck in drag-based editing, resulting in a fundamental compromise on weakened inversion strength and costly test-time optimization (TTO). This compromise severely limits the generative capabilities of diffusion models, suppressing high-fidelity inpainting and text-guided creation. In this paper, we introduce LazyDrag, the first drag-based image editing method for Multi-Modal Diffusion Transformers, which directly eliminates the reliance on implicit point matching. In concrete terms, our method generates an explicit correspondence map from user drag inputs as a reliable reference to boost the attention control. This reliable reference opens the potential for a stable full-strength inversion process, which is the first in the drag-based editing task. It obviates the necessity for TTO and unlocks the generative capability of models. Therefore, LazyDrag naturally unifies precise geometric control with text guidance, enabling complex edits that were previously out of reach: opening the mouth of a dog and inpainting its interior, generating new objects like a ``tennis ball'', or for ambiguous drags, making context-aware changes like moving a hand into a pocket. Additionally, LazyDrag supports multi-round workflows with simultaneous move and scale operations. Evaluated on the DragBench, our method outperforms baselines in drag accuracy and perceptual quality, as validated by VIEScore and human evaluation. LazyDrag not only establishes new state-of-the-art performance, but also paves a new way to editing paradigms.
PDF193September 16, 2025