DragFlow: Freisetzung von DiT-Priors mit regionsbasierter Überwachung für Drag-Bearbeitung

papers.abstract

Drag-basiertes Bildbearbeitung litt lange unter Verzerrungen im Zielbereich, hauptsächlich weil die Priors der früheren Basismodelle, wie Stable Diffusion, nicht ausreichend waren, um optimierte Latents zurück auf die natürliche Bildmannigfaltigkeit zu projizieren. Mit dem Wechsel von UNet-basierten DDPMs zu skalierbareren DiTs mit Flow-Matching (z. B. SD3.5, FLUX) sind die generativen Priors deutlich stärker geworden, was Fortschritte in diversen Bearbeitungsaufgaben ermöglicht. Dennoch hat die drag-basierte Bearbeitung noch nicht von diesen stärkeren Priors profitiert. Diese Arbeit schlägt das erste Framework vor, das den reichen Prior von FLUX effektiv für die drag-basierte Bearbeitung nutzt, genannt DragFlow, und erzielt dabei erhebliche Verbesserungen gegenüber den Baselines. Wir zeigen zunächst, dass die direkte Anwendung von punktbasierter Drag-Bearbeitung auf DiTs schlecht abschneidet: Im Gegensatz zu den stark komprimierten Merkmalen von UNets sind die Merkmale von DiTs unzureichend strukturiert, um eine zuverlässige Führung für punktweise Bewegungsüberwachung zu bieten. Um diese Einschränkung zu überwinden, führt DragFlow ein regionsbasiertes Bearbeitungsparadigma ein, bei dem affine Transformationen eine reichere und konsistentere Merkmalsüberwachung ermöglichen. Zusätzlich integrieren wir vortrainierte Open-Domain-Personalisierungsadapter (z. B. IP-Adapter), um die Subjektkonsistenz zu verbessern, während die Hintergrundtreue durch gradientenmaskenbasierte harte Einschränkungen bewahrt wird. Multimodale große Sprachmodelle (MLLMs) werden weiterhin eingesetzt, um Aufgabenmehrdeutigkeiten zu lösen. Für die Bewertung kuratieren wir einen neuartigen regionsbasierten Drag-Benchmark (ReD Bench) mit regionsbasierten Drag-Anweisungen. Umfangreiche Experimente auf DragBench-DR und ReD Bench zeigen, dass DragFlow sowohl punktbasierte als auch regionsbasierte Baselines übertrifft und einen neuen State-of-the-Art in der drag-basierten Bildbearbeitung setzt. Code und Datensätze werden nach der Veröffentlichung öffentlich zugänglich sein.

English

Drag-based image editing has long suffered from distortions in the target region, largely because the priors of earlier base models, Stable Diffusion, are insufficient to project optimized latents back onto the natural image manifold. With the shift from UNet-based DDPMs to more scalable DiT with flow matching (e.g., SD3.5, FLUX), generative priors have become significantly stronger, enabling advances across diverse editing tasks. However, drag-based editing has yet to benefit from these stronger priors. This work proposes the first framework to effectively harness FLUX's rich prior for drag-based editing, dubbed DragFlow, achieving substantial gains over baselines. We first show that directly applying point-based drag editing to DiTs performs poorly: unlike the highly compressed features of UNets, DiT features are insufficiently structured to provide reliable guidance for point-wise motion supervision. To overcome this limitation, DragFlow introduces a region-based editing paradigm, where affine transformations enable richer and more consistent feature supervision. Additionally, we integrate pretrained open-domain personalization adapters (e.g., IP-Adapter) to enhance subject consistency, while preserving background fidelity through gradient mask-based hard constraints. Multimodal large language models (MLLMs) are further employed to resolve task ambiguities. For evaluation, we curate a novel Region-based Dragging benchmark (ReD Bench) featuring region-level dragging instructions. Extensive experiments on DragBench-DR and ReD Bench show that DragFlow surpasses both point-based and region-based baselines, setting a new state-of-the-art in drag-based image editing. Code and datasets will be publicly available upon publication.

DragFlow: Freisetzung von DiT-Priors mit regionsbasierter Überwachung für Drag-Bearbeitung

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

papers.abstract

Support