InstantDrag: Улучшение интерактивности в редактировании изображений на основе перетаскивания
InstantDrag: Improving Interactivity in Drag-based Image Editing
September 13, 2024
Авторы: Joonghyuk Shin, Daehyeon Choi, Jaesik Park
cs.AI
Аннотация
Редактирование изображений на основе перетаскивания недавно стало популярным из-за его интерактивности и точности. Однако, несмотря на способность моделей текст-в-изображение генерировать образцы за секунду, редактирование путем перетаскивания все еще отстает из-за сложности точного отражения взаимодействия пользователя при сохранении содержимого изображения. Некоторые существующие подходы полагаются на вычислительно интенсивную оптимизацию для каждого изображения или замысловатые методы на основе руководства, требующие дополнительных входных данных, таких как маски для подвижных областей и текстовые подсказки, что, таким образом, снижает интерактивность процесса редактирования. Мы представляем InstantDrag, пайплайн без оптимизации, который повышает интерактивность и скорость, требуя в качестве входных данных только изображение и инструкцию по перетаскиванию. InstantDrag состоит из двух тщательно разработанных сетей: генератора оптического потока, зависящего от перетаскивания (FlowGen), и модели диффузии, зависящей от оптического потока (FlowDiffusion). InstantDrag изучает динамику движения для редактирования изображений на основе перетаскивания в видеороликах реального мира путем декомпозиции задачи на генерацию движения и генерацию изображения, зависящего от движения. Мы демонстрируем способность InstantDrag выполнять быстрые, фотореалистичные правки без масок или текстовых подсказок через эксперименты на наборах данных видеороликов лиц и общих сцен. Эти результаты подчеркивают эффективность нашего подхода в обработке редактирования изображений на основе перетаскивания, делая его многообещающим решением для интерактивных приложений в реальном времени.
English
Drag-based image editing has recently gained popularity for its interactivity
and precision. However, despite the ability of text-to-image models to generate
samples within a second, drag editing still lags behind due to the challenge of
accurately reflecting user interaction while maintaining image content. Some
existing approaches rely on computationally intensive per-image optimization or
intricate guidance-based methods, requiring additional inputs such as masks for
movable regions and text prompts, thereby compromising the interactivity of the
editing process. We introduce InstantDrag, an optimization-free pipeline that
enhances interactivity and speed, requiring only an image and a drag
instruction as input. InstantDrag consists of two carefully designed networks:
a drag-conditioned optical flow generator (FlowGen) and an optical
flow-conditioned diffusion model (FlowDiffusion). InstantDrag learns motion
dynamics for drag-based image editing in real-world video datasets by
decomposing the task into motion generation and motion-conditioned image
generation. We demonstrate InstantDrag's capability to perform fast,
photo-realistic edits without masks or text prompts through experiments on
facial video datasets and general scenes. These results highlight the
efficiency of our approach in handling drag-based image editing, making it a
promising solution for interactive, real-time applications.Summary
AI-Generated Summary