DragFlow: Liberando os Priors de DiT com Supervisão Baseada em Regiões para Edição por Arrasto

Resumo

A edição de imagens baseada em arrasto tem sofrido há muito tempo com distorções na região alvo, principalmente porque os priors dos modelos base anteriores, como o Stable Diffusion, são insuficientes para projetar latentes otimizados de volta ao manifold natural das imagens. Com a transição dos DDPMs baseados em UNet para DiTs mais escaláveis com correspondência de fluxo (por exemplo, SD3.5, FLUX), os priors generativos tornaram-se significativamente mais fortes, permitindo avanços em diversas tarefas de edição. No entanto, a edição baseada em arrasto ainda não se beneficiou desses priors mais robustos. Este trabalho propõe o primeiro framework para efetivamente aproveitar o rico prior do FLUX para edição baseada em arrasto, denominado DragFlow, alcançando ganhos substanciais em relação às abordagens existentes. Primeiro, mostramos que a aplicação direta da edição de arrasto baseada em pontos em DiTs tem desempenho insatisfatório: ao contrário das características altamente comprimidas das UNets, as características das DiTs são insuficientemente estruturadas para fornecer orientação confiável para a supervisão de movimento ponto a ponto. Para superar essa limitação, o DragFlow introduz um paradigma de edição baseada em regiões, onde transformações afins permitem uma supervisão de características mais rica e consistente. Além disso, integramos adaptadores de personalização de domínio aberto pré-treinados (por exemplo, IP-Adapter) para melhorar a consistência do sujeito, enquanto preservamos a fidelidade do fundo por meio de restrições rígidas baseadas em máscaras de gradiente. Modelos de linguagem multimodal de grande escala (MLLMs) são ainda empregados para resolver ambiguidades de tarefas. Para avaliação, criamos um novo benchmark de Arrasto Baseado em Região (ReD Bench) com instruções de arrasto em nível de região. Experimentos extensivos no DragBench-DR e no ReD Bench mostram que o DragFlow supera tanto as abordagens baseadas em pontos quanto em regiões, estabelecendo um novo estado da arte na edição de imagens baseada em arrasto. O código e os conjuntos de dados estarão publicamente disponíveis após a publicação.

English

Drag-based image editing has long suffered from distortions in the target region, largely because the priors of earlier base models, Stable Diffusion, are insufficient to project optimized latents back onto the natural image manifold. With the shift from UNet-based DDPMs to more scalable DiT with flow matching (e.g., SD3.5, FLUX), generative priors have become significantly stronger, enabling advances across diverse editing tasks. However, drag-based editing has yet to benefit from these stronger priors. This work proposes the first framework to effectively harness FLUX's rich prior for drag-based editing, dubbed DragFlow, achieving substantial gains over baselines. We first show that directly applying point-based drag editing to DiTs performs poorly: unlike the highly compressed features of UNets, DiT features are insufficiently structured to provide reliable guidance for point-wise motion supervision. To overcome this limitation, DragFlow introduces a region-based editing paradigm, where affine transformations enable richer and more consistent feature supervision. Additionally, we integrate pretrained open-domain personalization adapters (e.g., IP-Adapter) to enhance subject consistency, while preserving background fidelity through gradient mask-based hard constraints. Multimodal large language models (MLLMs) are further employed to resolve task ambiguities. For evaluation, we curate a novel Region-based Dragging benchmark (ReD Bench) featuring region-level dragging instructions. Extensive experiments on DragBench-DR and ReD Bench show that DragFlow surpasses both point-based and region-based baselines, setting a new state-of-the-art in drag-based image editing. Code and datasets will be publicly available upon publication.

DragFlow: Liberando os Priors de DiT com Supervisão Baseada em Regiões para Edição por Arrasto

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

Resumo

Support