DragFlow: Liberando os Priors de DiT com Supervisão Baseada em Regiões para Edição por Arrasto
DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing
October 2, 2025
Autores: Zihan Zhou, Shilin Lu, Shuli Leng, Shaocong Zhang, Zhuming Lian, Xinlei Yu, Adams Wai-Kin Kong
cs.AI
Resumo
A edição de imagens baseada em arrasto tem sofrido há muito tempo com distorções na região alvo, principalmente porque os priors dos modelos base anteriores, como o Stable Diffusion, são insuficientes para projetar latentes otimizados de volta ao manifold natural das imagens. Com a transição dos DDPMs baseados em UNet para DiTs mais escaláveis com correspondência de fluxo (por exemplo, SD3.5, FLUX), os priors generativos tornaram-se significativamente mais fortes, permitindo avanços em diversas tarefas de edição. No entanto, a edição baseada em arrasto ainda não se beneficiou desses priors mais robustos. Este trabalho propõe o primeiro framework para efetivamente aproveitar o rico prior do FLUX para edição baseada em arrasto, denominado DragFlow, alcançando ganhos substanciais em relação às abordagens existentes. Primeiro, mostramos que a aplicação direta da edição de arrasto baseada em pontos em DiTs tem desempenho insatisfatório: ao contrário das características altamente comprimidas das UNets, as características das DiTs são insuficientemente estruturadas para fornecer orientação confiável para a supervisão de movimento ponto a ponto. Para superar essa limitação, o DragFlow introduz um paradigma de edição baseada em regiões, onde transformações afins permitem uma supervisão de características mais rica e consistente. Além disso, integramos adaptadores de personalização de domínio aberto pré-treinados (por exemplo, IP-Adapter) para melhorar a consistência do sujeito, enquanto preservamos a fidelidade do fundo por meio de restrições rígidas baseadas em máscaras de gradiente. Modelos de linguagem multimodal de grande escala (MLLMs) são ainda empregados para resolver ambiguidades de tarefas. Para avaliação, criamos um novo benchmark de Arrasto Baseado em Região (ReD Bench) com instruções de arrasto em nível de região. Experimentos extensivos no DragBench-DR e no ReD Bench mostram que o DragFlow supera tanto as abordagens baseadas em pontos quanto em regiões, estabelecendo um novo estado da arte na edição de imagens baseada em arrasto. O código e os conjuntos de dados estarão publicamente disponíveis após a publicação.
English
Drag-based image editing has long suffered from distortions in the target
region, largely because the priors of earlier base models, Stable Diffusion,
are insufficient to project optimized latents back onto the natural image
manifold. With the shift from UNet-based DDPMs to more scalable DiT with flow
matching (e.g., SD3.5, FLUX), generative priors have become significantly
stronger, enabling advances across diverse editing tasks. However, drag-based
editing has yet to benefit from these stronger priors. This work proposes the
first framework to effectively harness FLUX's rich prior for drag-based
editing, dubbed DragFlow, achieving substantial gains over baselines. We first
show that directly applying point-based drag editing to DiTs performs poorly:
unlike the highly compressed features of UNets, DiT features are insufficiently
structured to provide reliable guidance for point-wise motion supervision. To
overcome this limitation, DragFlow introduces a region-based editing paradigm,
where affine transformations enable richer and more consistent feature
supervision. Additionally, we integrate pretrained open-domain personalization
adapters (e.g., IP-Adapter) to enhance subject consistency, while preserving
background fidelity through gradient mask-based hard constraints. Multimodal
large language models (MLLMs) are further employed to resolve task ambiguities.
For evaluation, we curate a novel Region-based Dragging benchmark (ReD Bench)
featuring region-level dragging instructions. Extensive experiments on
DragBench-DR and ReD Bench show that DragFlow surpasses both point-based and
region-based baselines, setting a new state-of-the-art in drag-based image
editing. Code and datasets will be publicly available upon publication.