DragFlow: 드래그 편집을 위한 지역 기반 감독과 DiT 사전 지식 활용
DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing
October 2, 2025
저자: Zihan Zhou, Shilin Lu, Shuli Leng, Shaocong Zhang, Zhuming Lian, Xinlei Yu, Adams Wai-Kin Kong
cs.AI
초록
드래그 기반 이미지 편집은 오랫동안 대상 영역의 왜곡 문제로 어려움을 겪어왔는데, 이는 주로 이전의 기본 모델인 Stable Diffusion의 사전 지식이 최적화된 잠재 공간을 자연스러운 이미지 매니폴드로 다시 투영하기에 부족했기 때문입니다. UNet 기반 DDPM에서 확장성이 더 뛰어난 DiT와 플로우 매칭(예: SD3.5, FLUX)으로의 전환으로 생성적 사전 지식이 크게 강화되면서 다양한 편집 작업에서 진전이 이루어졌습니다. 그러나 드래그 기반 편집은 이러한 강화된 사전 지식의 혜택을 아직 누리지 못했습니다. 본 연구는 FLUX의 풍부한 사전 지식을 드래그 기반 편집에 효과적으로 활용하는 첫 번째 프레임워크인 DragFlow를 제안하며, 이를 통해 기준선을 크게 뛰어넘는 성과를 달성했습니다. 먼저, DiT에 포인트 기반 드래그 편집을 직접 적용하는 것이 성능이 좋지 않음을 보여줍니다: UNet의 고도로 압축된 특징과 달리 DiT의 특징은 포인트 단위의 모션 감독을 위한 신뢰할 만한 지침을 제공하기에 충분히 구조화되어 있지 않습니다. 이러한 한계를 극복하기 위해 DragFlow는 영역 기반 편집 패러다임을 도입하며, 아핀 변환을 통해 더 풍부하고 일관된 특징 감독을 가능하게 합니다. 또한, 사전 학습된 개방형 도메인 개인화 어댑터(예: IP-Adapter)를 통합하여 주체 일관성을 강화하는 동시에, 그라디언트 마스크 기반의 강력한 제약을 통해 배경 충실도를 유지합니다. 다중 모드 대형 언어 모델(MLLMs)을 추가로 활용하여 작업의 모호성을 해결합니다. 평가를 위해, 영역 수준의 드래그 지침을 포함한 새로운 Region-based Dragging 벤치마크(ReD Bench)를 구성했습니다. DragBench-DR와 ReD Bench에서의 광범위한 실험을 통해 DragFlow가 포인트 기반 및 영역 기반 기준선을 모두 능가하며, 드래그 기반 이미지 편집에서 새로운 최첨단 기술을 설정함을 보여줍니다. 코드와 데이터셋은 출판 시 공개될 예정입니다.
English
Drag-based image editing has long suffered from distortions in the target
region, largely because the priors of earlier base models, Stable Diffusion,
are insufficient to project optimized latents back onto the natural image
manifold. With the shift from UNet-based DDPMs to more scalable DiT with flow
matching (e.g., SD3.5, FLUX), generative priors have become significantly
stronger, enabling advances across diverse editing tasks. However, drag-based
editing has yet to benefit from these stronger priors. This work proposes the
first framework to effectively harness FLUX's rich prior for drag-based
editing, dubbed DragFlow, achieving substantial gains over baselines. We first
show that directly applying point-based drag editing to DiTs performs poorly:
unlike the highly compressed features of UNets, DiT features are insufficiently
structured to provide reliable guidance for point-wise motion supervision. To
overcome this limitation, DragFlow introduces a region-based editing paradigm,
where affine transformations enable richer and more consistent feature
supervision. Additionally, we integrate pretrained open-domain personalization
adapters (e.g., IP-Adapter) to enhance subject consistency, while preserving
background fidelity through gradient mask-based hard constraints. Multimodal
large language models (MLLMs) are further employed to resolve task ambiguities.
For evaluation, we curate a novel Region-based Dragging benchmark (ReD Bench)
featuring region-level dragging instructions. Extensive experiments on
DragBench-DR and ReD Bench show that DragFlow surpasses both point-based and
region-based baselines, setting a new state-of-the-art in drag-based image
editing. Code and datasets will be publicly available upon publication.