Inpaint4Drag: Перепрофилирование моделей восстановления изображений для редактирования на основе перетаскивания через двунаправленное преобразование
Inpaint4Drag: Repurposing Inpainting Models for Drag-Based Image Editing via Bidirectional Warping
September 4, 2025
Авторы: Jingyi Lu, Kai Han
cs.AI
Аннотация
Редактирование изображений на основе перетаскивания стало мощной парадигмой для интуитивного манипулирования изображениями. Однако существующие подходы в основном полагаются на манипуляции в латентном пространстве генеративных моделей, что приводит к ограниченной точности, задержкам в обратной связи и специфическим ограничениям моделей. В связи с этим мы представляем Inpaint4Drag — новый фреймворк, который разбивает редактирование на основе перетаскивания на двунаправленное деформирование в пиксельном пространстве и восстановление изображений. Вдохновленные деформацией упругих объектов в физическом мире, мы рассматриваем области изображения как деформируемые материалы, сохраняющие естественную форму при манипуляциях пользователя. Наш метод обеспечивает предварительный просмотр деформации в реальном времени (0.01 с) и эффективное восстановление изображений (0.3 с) при разрешении 512x512, значительно улучшая опыт взаимодействия по сравнению с существующими методами, требующими нескольких минут на каждое редактирование. Преобразуя входные данные перетаскивания непосредственно в стандартные форматы для восстановления изображений, наш подход служит универсальным адаптером для любой модели восстановления без изменения архитектуры, автоматически наследуя все будущие улучшения в технологии восстановления. Многочисленные эксперименты демонстрируют, что наш метод обеспечивает превосходное визуальное качество и точный контроль, сохраняя при этом производительность в реальном времени. Страница проекта: https://visual-ai.github.io/inpaint4drag/
English
Drag-based image editing has emerged as a powerful paradigm for intuitive
image manipulation. However, existing approaches predominantly rely on
manipulating the latent space of generative models, leading to limited
precision, delayed feedback, and model-specific constraints. Accordingly, we
present Inpaint4Drag, a novel framework that decomposes drag-based editing into
pixel-space bidirectional warping and image inpainting. Inspired by elastic
object deformation in the physical world, we treat image regions as deformable
materials that maintain natural shape under user manipulation. Our method
achieves real-time warping previews (0.01s) and efficient inpainting (0.3s) at
512x512 resolution, significantly improving the interaction experience compared
to existing methods that require minutes per edit. By transforming drag inputs
directly into standard inpainting formats, our approach serves as a universal
adapter for any inpainting model without architecture modification,
automatically inheriting all future improvements in inpainting technology.
Extensive experiments demonstrate that our method achieves superior visual
quality and precise control while maintaining real-time performance. Project
page: https://visual-ai.github.io/inpaint4drag/