DragFlow: Sfruttare i Prior DiT con Supervisione Basata su Regioni per l'Editing Drag
DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing
October 2, 2025
Autori: Zihan Zhou, Shilin Lu, Shuli Leng, Shaocong Zhang, Zhuming Lian, Xinlei Yu, Adams Wai-Kin Kong
cs.AI
Abstract
L'editing di immagini basato sul trascinamento ha a lungo sofferto di distorsioni nella regione target, principalmente perché i priori dei modelli base precedenti, come Stable Diffusion, sono insufficienti per proiettare i latenti ottimizzati nuovamente sul manifold delle immagini naturali. Con il passaggio dai DDPM basati su UNet a DiT più scalabili con flow matching (ad esempio, SD3.5, FLUX), i priori generativi sono diventati significativamente più forti, consentendo progressi in vari compiti di editing. Tuttavia, l'editing basato sul trascinamento non ha ancora beneficiato di questi priori più robusti. Questo lavoro propone il primo framework per sfruttare efficacemente il ricco prior di FLUX per l'editing basato sul trascinamento, denominato DragFlow, ottenendo miglioramenti sostanziali rispetto ai baseline. Inizialmente, dimostriamo che applicare direttamente l'editing basato su punti a DiT produce risultati scadenti: a differenza delle caratteristiche altamente compresse delle UNet, le caratteristiche di DiT non sono sufficientemente strutturate per fornire una guida affidabile per la supervisione del movimento punto per punto. Per superare questa limitazione, DragFlow introduce un paradigma di editing basato su regioni, in cui le trasformazioni affini consentono una supervisione delle caratteristiche più ricca e coerente. Inoltre, integriamo adattatori di personalizzazione pre-addestrati per domini aperti (ad esempio, IP-Adapter) per migliorare la coerenza del soggetto, preservando al contempo la fedeltà dello sfondo attraverso vincoli rigidi basati su maschere di gradiente. Modelli linguistici multimodali di grandi dimensioni (MLLM) vengono ulteriormente impiegati per risolvere le ambiguità dei compiti. Per la valutazione, abbiamo curato un nuovo benchmark di trascinamento basato su regioni (ReD Bench) che include istruzioni di trascinamento a livello di regione. Esperimenti estesi su DragBench-DR e ReD Bench dimostrano che DragFlow supera sia i baseline basati su punti che quelli basati su regioni, stabilendo un nuovo stato dell'arte nell'editing di immagini basato sul trascinamento. Codice e dataset saranno pubblicamente disponibili alla pubblicazione.
English
Drag-based image editing has long suffered from distortions in the target
region, largely because the priors of earlier base models, Stable Diffusion,
are insufficient to project optimized latents back onto the natural image
manifold. With the shift from UNet-based DDPMs to more scalable DiT with flow
matching (e.g., SD3.5, FLUX), generative priors have become significantly
stronger, enabling advances across diverse editing tasks. However, drag-based
editing has yet to benefit from these stronger priors. This work proposes the
first framework to effectively harness FLUX's rich prior for drag-based
editing, dubbed DragFlow, achieving substantial gains over baselines. We first
show that directly applying point-based drag editing to DiTs performs poorly:
unlike the highly compressed features of UNets, DiT features are insufficiently
structured to provide reliable guidance for point-wise motion supervision. To
overcome this limitation, DragFlow introduces a region-based editing paradigm,
where affine transformations enable richer and more consistent feature
supervision. Additionally, we integrate pretrained open-domain personalization
adapters (e.g., IP-Adapter) to enhance subject consistency, while preserving
background fidelity through gradient mask-based hard constraints. Multimodal
large language models (MLLMs) are further employed to resolve task ambiguities.
For evaluation, we curate a novel Region-based Dragging benchmark (ReD Bench)
featuring region-level dragging instructions. Extensive experiments on
DragBench-DR and ReD Bench show that DragFlow surpasses both point-based and
region-based baselines, setting a new state-of-the-art in drag-based image
editing. Code and datasets will be publicly available upon publication.