DragFlow : Libération des a priori DiT avec une supervision basée sur les régions pour l'édition par glissement

papers.abstract

L'édition d'images basée sur le glissement a longtemps souffert de distorsions dans la région cible, principalement parce que les a priori des modèles de base précédents, comme Stable Diffusion, sont insuffisants pour projeter des latents optimisés sur la variété naturelle des images. Avec le passage des DDPM basés sur UNet à des DiT plus évolutifs avec appariement de flux (par exemple, SD3.5, FLUX), les a priori génératifs sont devenus significativement plus robustes, permettant des avancées dans diverses tâches d'édition. Cependant, l'édition basée sur le glissement n'a pas encore bénéficié de ces a priori renforcés. Ce travail propose le premier cadre pour exploiter efficacement l'a priori riche de FLUX pour l'édition basée sur le glissement, appelé DragFlow, obtenant des gains substantiels par rapport aux méthodes de référence. Nous montrons d'abord que l'application directe de l'édition par glissement basée sur des points aux DiT donne de mauvais résultats : contrairement aux caractéristiques hautement compressées des UNet, les caractéristiques des DiT sont insuffisamment structurées pour fournir un guidage fiable pour la supervision du mouvement point par point. Pour surmonter cette limitation, DragFlow introduit un paradigme d'édition basé sur des régions, où les transformations affines permettent une supervision des caractéristiques plus riche et plus cohérente. De plus, nous intégrons des adaptateurs de personnalisation pré-entraînés pour des domaines ouverts (par exemple, IP-Adapter) pour améliorer la cohérence du sujet, tout en préservant la fidélité de l'arrière-plan grâce à des contraintes strictes basées sur des masques de gradient. Les modèles de langage multimodaux de grande taille (MLLMs) sont également utilisés pour résoudre les ambiguïtés des tâches. Pour l'évaluation, nous avons constitué un nouveau benchmark d'édition par glissement basé sur des régions (ReD Bench) comprenant des instructions de glissement au niveau des régions. Des expériences approfondies sur DragBench-DR et ReD Bench montrent que DragFlow surpasse à la fois les méthodes de référence basées sur des points et sur des régions, établissant un nouvel état de l'art dans l'édition d'images basée sur le glissement. Le code et les jeux de données seront rendus publics après la publication.

English

Drag-based image editing has long suffered from distortions in the target region, largely because the priors of earlier base models, Stable Diffusion, are insufficient to project optimized latents back onto the natural image manifold. With the shift from UNet-based DDPMs to more scalable DiT with flow matching (e.g., SD3.5, FLUX), generative priors have become significantly stronger, enabling advances across diverse editing tasks. However, drag-based editing has yet to benefit from these stronger priors. This work proposes the first framework to effectively harness FLUX's rich prior for drag-based editing, dubbed DragFlow, achieving substantial gains over baselines. We first show that directly applying point-based drag editing to DiTs performs poorly: unlike the highly compressed features of UNets, DiT features are insufficiently structured to provide reliable guidance for point-wise motion supervision. To overcome this limitation, DragFlow introduces a region-based editing paradigm, where affine transformations enable richer and more consistent feature supervision. Additionally, we integrate pretrained open-domain personalization adapters (e.g., IP-Adapter) to enhance subject consistency, while preserving background fidelity through gradient mask-based hard constraints. Multimodal large language models (MLLMs) are further employed to resolve task ambiguities. For evaluation, we curate a novel Region-based Dragging benchmark (ReD Bench) featuring region-level dragging instructions. Extensive experiments on DragBench-DR and ReD Bench show that DragFlow surpasses both point-based and region-based baselines, setting a new state-of-the-art in drag-based image editing. Code and datasets will be publicly available upon publication.

DragFlow : Libération des a priori DiT avec une supervision basée sur les régions pour l'édition par glissement

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

papers.abstract

Support