DragFlow: Liberando los Prior de DiT con Supervisión Basada en Regiones para la Edición por Arrastre
DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing
October 2, 2025
Autores: Zihan Zhou, Shilin Lu, Shuli Leng, Shaocong Zhang, Zhuming Lian, Xinlei Yu, Adams Wai-Kin Kong
cs.AI
Resumen
La edición de imágenes basada en arrastre ha sufrido durante mucho tiempo distorsiones en la región objetivo, principalmente porque los priores de los modelos base anteriores, como Stable Diffusion, son insuficientes para proyectar latentes optimizados de vuelta al colector de imágenes naturales. Con el cambio de los DDPM basados en UNet a DiT más escalables con emparejamiento de flujo (por ejemplo, SD3.5, FLUX), los priores generativos se han vuelto significativamente más fuertes, permitiendo avances en diversas tareas de edición. Sin embargo, la edición basada en arrastre aún no se ha beneficiado de estos priores más robustos. Este trabajo propone el primer marco para aprovechar eficazmente el rico prior de FLUX en la edición basada en arrastre, denominado DragFlow, logrando mejoras sustanciales respecto a los métodos base. Primero demostramos que aplicar directamente la edición de arrastre basada en puntos a DiTs tiene un rendimiento deficiente: a diferencia de las características altamente comprimidas de las UNets, las características de DiT no están suficientemente estructuradas para proporcionar una guía confiable para la supervisión del movimiento punto a punto. Para superar esta limitación, DragFlow introduce un paradigma de edición basado en regiones, donde las transformaciones afines permiten una supervisión de características más rica y consistente. Además, integramos adaptadores de personalización de dominio abierto preentrenados (por ejemplo, IP-Adapter) para mejorar la consistencia del sujeto, mientras preservamos la fidelidad del fondo mediante restricciones duras basadas en máscaras de gradiente. Los modelos de lenguaje multimodal de gran escala (MLLMs) se emplean además para resolver ambigüedades en las tareas. Para la evaluación, hemos creado un nuevo punto de referencia basado en arrastre de regiones (ReD Bench) que incluye instrucciones de arrastre a nivel de región. Experimentos exhaustivos en DragBench-DR y ReD Bench muestran que DragFlow supera tanto a los métodos base basados en puntos como a los basados en regiones, estableciendo un nuevo estado del arte en la edición de imágenes basada en arrastre. El código y los conjuntos de datos estarán disponibles públicamente tras la publicación.
English
Drag-based image editing has long suffered from distortions in the target
region, largely because the priors of earlier base models, Stable Diffusion,
are insufficient to project optimized latents back onto the natural image
manifold. With the shift from UNet-based DDPMs to more scalable DiT with flow
matching (e.g., SD3.5, FLUX), generative priors have become significantly
stronger, enabling advances across diverse editing tasks. However, drag-based
editing has yet to benefit from these stronger priors. This work proposes the
first framework to effectively harness FLUX's rich prior for drag-based
editing, dubbed DragFlow, achieving substantial gains over baselines. We first
show that directly applying point-based drag editing to DiTs performs poorly:
unlike the highly compressed features of UNets, DiT features are insufficiently
structured to provide reliable guidance for point-wise motion supervision. To
overcome this limitation, DragFlow introduces a region-based editing paradigm,
where affine transformations enable richer and more consistent feature
supervision. Additionally, we integrate pretrained open-domain personalization
adapters (e.g., IP-Adapter) to enhance subject consistency, while preserving
background fidelity through gradient mask-based hard constraints. Multimodal
large language models (MLLMs) are further employed to resolve task ambiguities.
For evaluation, we curate a novel Region-based Dragging benchmark (ReD Bench)
featuring region-level dragging instructions. Extensive experiments on
DragBench-DR and ReD Bench show that DragFlow surpasses both point-based and
region-based baselines, setting a new state-of-the-art in drag-based image
editing. Code and datasets will be publicly available upon publication.