DragFlow: Раскрытие априорных знаний DiT с региональным контролем для редактирования перетаскиванием

Аннотация

Редактирование изображений на основе перетаскивания долгое время страдало от искажений в целевой области, в основном из-за того, что априорные знания ранних базовых моделей, таких как Stable Diffusion, были недостаточны для проекции оптимизированных латентных представлений обратно на многообразие естественных изображений. С переходом от DDPM на основе UNet к более масштабируемым DiT с согласованием потоков (например, SD3.5, FLUX), генеративные априорные знания значительно усилились, что позволило добиться прогресса в различных задачах редактирования. Однако редактирование на основе перетаскивания пока не получило выгоды от этих более сильных априорных знаний. В данной работе предлагается первый фреймворк, эффективно использующий богатые априорные знания FLUX для редактирования на основе перетаскивания, названный DragFlow, который демонстрирует существенные улучшения по сравнению с базовыми методами. Мы сначала показываем, что прямое применение точечного редактирования на основе перетаскивания к DiT работает плохо: в отличие от сильно сжатых признаков UNet, признаки DiT недостаточно структурированы для обеспечения надежного руководства для точечного управления движением. Чтобы преодолеть это ограничение, DragFlow вводит парадигму редактирования на основе областей, где аффинные преобразования позволяют обеспечить более богатое и согласованное управление признаками. Дополнительно мы интегрируем предобученные адаптеры персонализации для открытых доменов (например, IP-Adapter) для повышения согласованности объектов, сохраняя при этом точность фона с помощью жестких ограничений на основе градиентных масок. Мультимодальные большие языковые модели (MLLM) также используются для разрешения неоднозначностей в задачах. Для оценки мы создали новый бенчмарк Region-based Dragging (ReD Bench), содержащий инструкции для перетаскивания на уровне областей. Многочисленные эксперименты на DragBench-DR и ReD Bench показывают, что DragFlow превосходит как точечные, так и региональные базовые методы, устанавливая новый стандарт в редактировании изображений на основе перетаскивания. Код и наборы данных будут общедоступны после публикации.

English

Drag-based image editing has long suffered from distortions in the target region, largely because the priors of earlier base models, Stable Diffusion, are insufficient to project optimized latents back onto the natural image manifold. With the shift from UNet-based DDPMs to more scalable DiT with flow matching (e.g., SD3.5, FLUX), generative priors have become significantly stronger, enabling advances across diverse editing tasks. However, drag-based editing has yet to benefit from these stronger priors. This work proposes the first framework to effectively harness FLUX's rich prior for drag-based editing, dubbed DragFlow, achieving substantial gains over baselines. We first show that directly applying point-based drag editing to DiTs performs poorly: unlike the highly compressed features of UNets, DiT features are insufficiently structured to provide reliable guidance for point-wise motion supervision. To overcome this limitation, DragFlow introduces a region-based editing paradigm, where affine transformations enable richer and more consistent feature supervision. Additionally, we integrate pretrained open-domain personalization adapters (e.g., IP-Adapter) to enhance subject consistency, while preserving background fidelity through gradient mask-based hard constraints. Multimodal large language models (MLLMs) are further employed to resolve task ambiguities. For evaluation, we curate a novel Region-based Dragging benchmark (ReD Bench) featuring region-level dragging instructions. Extensive experiments on DragBench-DR and ReD Bench show that DragFlow surpasses both point-based and region-based baselines, setting a new state-of-the-art in drag-based image editing. Code and datasets will be publicly available upon publication.

DragFlow: Раскрытие априорных знаний DiT с региональным контролем для редактирования перетаскиванием

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

Аннотация

Support