DragFlow: Het Benutten van DiT-Priors met Regio-gebaseerd Toezicht voor Drag-bewerking
DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing
October 2, 2025
Auteurs: Zihan Zhou, Shilin Lu, Shuli Leng, Shaocong Zhang, Zhuming Lian, Xinlei Yu, Adams Wai-Kin Kong
cs.AI
Samenvatting
Drag-gebaseerde beeldbewerking heeft lange tijd te lijden gehad onder vervormingen in het doelgebied, voornamelijk omdat de priors van eerdere basismodellen, zoals Stable Diffusion, onvoldoende waren om geoptimaliseerde latente representaties terug te projecteren op de natuurlijke beeldvariëteit. Met de overgang van UNet-gebaseerde DDPM's naar schaalbaardere DiT's met flow matching (bijv. SD3.5, FLUX), zijn generatieve priors aanzienlijk sterker geworden, wat vooruitgang mogelijk maakt in diverse bewerkingstaken. Drag-gebaseerde bewerking heeft echter nog niet kunnen profiteren van deze sterkere priors. Dit werk introduceert het eerste framework dat effectief gebruikmaakt van FLUX's rijke prior voor drag-gebaseerde bewerking, genaamd DragFlow, wat aanzienlijke verbeteringen oplevert ten opzichte van bestaande methoden. We tonen eerst aan dat het direct toepassen van puntgebaseerde drag-bewerking op DiT's slecht presteert: in tegenstelling tot de sterk gecomprimeerde kenmerken van UNets, zijn DiT-kenmerken onvoldoende gestructureerd om betrouwbare begeleiding te bieden voor puntgewijze bewegingssupervisie. Om deze beperking te overwinnen, introduceert DragFlow een regio-gebaseerd bewerkingsparadigma, waarbij affiene transformaties rijkere en consistentere kenmerksupervisie mogelijk maken. Daarnaast integreren we vooraf getrainde open-domain personalisatieadapters (bijv. IP-Adapter) om de consistentie van het onderwerp te verbeteren, terwijl de achtergrondgetrouwheid behouden blijft door middel van gradientmasker-gebaseerde harde beperkingen. Multimodale grote taalmodellen (MLLMs) worden verder ingezet om taakambiguïteiten op te lossen. Voor evaluatie hebben we een nieuwe Region-based Dragging benchmark (ReD Bench) samengesteld met regio-niveau drag-instructies. Uitgebreide experimenten op DragBench-DR en ReD Bench tonen aan dat DragFlow zowel puntgebaseerde als regio-gebaseerde baselines overtreft, wat een nieuwe state-of-the-art in drag-gebaseerde beeldbewerking vertegenwoordigt. Code en datasets zullen na publicatie openbaar beschikbaar worden gesteld.
English
Drag-based image editing has long suffered from distortions in the target
region, largely because the priors of earlier base models, Stable Diffusion,
are insufficient to project optimized latents back onto the natural image
manifold. With the shift from UNet-based DDPMs to more scalable DiT with flow
matching (e.g., SD3.5, FLUX), generative priors have become significantly
stronger, enabling advances across diverse editing tasks. However, drag-based
editing has yet to benefit from these stronger priors. This work proposes the
first framework to effectively harness FLUX's rich prior for drag-based
editing, dubbed DragFlow, achieving substantial gains over baselines. We first
show that directly applying point-based drag editing to DiTs performs poorly:
unlike the highly compressed features of UNets, DiT features are insufficiently
structured to provide reliable guidance for point-wise motion supervision. To
overcome this limitation, DragFlow introduces a region-based editing paradigm,
where affine transformations enable richer and more consistent feature
supervision. Additionally, we integrate pretrained open-domain personalization
adapters (e.g., IP-Adapter) to enhance subject consistency, while preserving
background fidelity through gradient mask-based hard constraints. Multimodal
large language models (MLLMs) are further employed to resolve task ambiguities.
For evaluation, we curate a novel Region-based Dragging benchmark (ReD Bench)
featuring region-level dragging instructions. Extensive experiments on
DragBench-DR and ReD Bench show that DragFlow surpasses both point-based and
region-based baselines, setting a new state-of-the-art in drag-based image
editing. Code and datasets will be publicly available upon publication.