ChatPaper.aiChatPaper

LazyDrag: 명시적 대응 관계를 통한 다중 모달 디퓨전 트랜스포머에서 안정적인 드래그 기반 편집 활성화

LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

September 15, 2025
저자: Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum
cs.AI

초록

드래그 기반 편집에서 주의 메커니즘을 통한 암묵적 포인트 매칭에 대한 의존은 핵심적인 병목 현상으로 작용하며, 이는 약화된 역변환 강도와 비용이 많이 드는 테스트 시간 최적화(TTO) 간의 근본적인 타협을 초래합니다. 이러한 타협은 확산 모델의 생성 능력을 심각하게 제한하여, 고품질의 인페인팅과 텍스트 기반 생성이 억제되는 결과를 가져옵니다. 본 논문에서는 다중 모달 확산 트랜스포머를 위한 첫 번째 드래그 기반 이미지 편집 방법인 LazyDrag을 소개하며, 이는 암묵적 포인트 매칭에 대한 의존을 직접적으로 제거합니다. 구체적으로, 우리의 방법은 사용자 드래그 입력으로부터 명시적 대응 맵을 생성하여 주의 제어를 강화하는 신뢰할 수 있는 참조를 제공합니다. 이 신뢰할 수 있는 참조는 드래그 기반 편집 작업에서 처음으로 안정적인 완전 강도 역변환 프로세스의 가능성을 열어줍니다. 이는 TTO의 필요성을 없애고 모델의 생성 능력을 해제합니다. 따라서 LazyDrag은 정확한 기하학적 제어와 텍스트 지침을 자연스럽게 통합하여, 이전에는 달성할 수 없었던 복잡한 편집을 가능하게 합니다: 개의 입을 열고 내부를 인페인팅하거나, "테니스 공"과 같은 새로운 객체를 생성하거나, 모호한 드래그의 경우 컨텍스트를 인식한 변경(예: 손을 주머니에 넣기)을 수행합니다. 또한, LazyDrag은 동시 이동 및 크기 조정 작업을 포함한 다중 라운드 워크플로우를 지원합니다. DragBench에서 평가된 결과, 우리의 방법은 VIEScore와 인간 평가를 통해 검증된 드래그 정확도와 지각적 품질에서 기준선을 능가합니다. LazyDrag은 새로운 최첨단 성능을 확립할 뿐만 아니라, 편집 패러다임에 대한 새로운 길을 열어줍니다.
English
The reliance on implicit point matching via attention has become a core bottleneck in drag-based editing, resulting in a fundamental compromise on weakened inversion strength and costly test-time optimization (TTO). This compromise severely limits the generative capabilities of diffusion models, suppressing high-fidelity inpainting and text-guided creation. In this paper, we introduce LazyDrag, the first drag-based image editing method for Multi-Modal Diffusion Transformers, which directly eliminates the reliance on implicit point matching. In concrete terms, our method generates an explicit correspondence map from user drag inputs as a reliable reference to boost the attention control. This reliable reference opens the potential for a stable full-strength inversion process, which is the first in the drag-based editing task. It obviates the necessity for TTO and unlocks the generative capability of models. Therefore, LazyDrag naturally unifies precise geometric control with text guidance, enabling complex edits that were previously out of reach: opening the mouth of a dog and inpainting its interior, generating new objects like a ``tennis ball'', or for ambiguous drags, making context-aware changes like moving a hand into a pocket. Additionally, LazyDrag supports multi-round workflows with simultaneous move and scale operations. Evaluated on the DragBench, our method outperforms baselines in drag accuracy and perceptual quality, as validated by VIEScore and human evaluation. LazyDrag not only establishes new state-of-the-art performance, but also paves a new way to editing paradigms.
PDF193September 16, 2025