InstantDrag: Mejorando la Interactividad en la Edición de Imágenes basada en Arrastrar
InstantDrag: Improving Interactivity in Drag-based Image Editing
September 13, 2024
Autores: Joonghyuk Shin, Daehyeon Choi, Jaesik Park
cs.AI
Resumen
La edición de imágenes basada en arrastrar ha ganado popularidad recientemente por su interactividad y precisión. Sin embargo, a pesar de la capacidad de los modelos de texto a imagen para generar muestras en un segundo, la edición por arrastre aún se rezaga debido al desafío de reflejar con precisión la interacción del usuario manteniendo el contenido de la imagen. Algunos enfoques existentes se basan en optimizaciones intensivas computacionalmente por imagen o en métodos basados en guías intrincadas, que requieren entradas adicionales como máscaras para regiones móviles y textos de instrucción, comprometiendo así la interactividad del proceso de edición. Presentamos InstantDrag, un flujo de trabajo sin optimización que mejora la interactividad y la velocidad, requiriendo solo una imagen y una instrucción de arrastre como entrada. InstantDrag consta de dos redes cuidadosamente diseñadas: un generador de flujo óptico condicionado por arrastre (FlowGen) y un modelo de difusión condicionado por flujo óptico (FlowDiffusion). InstantDrag aprende la dinámica del movimiento para la edición de imágenes basada en arrastrar en conjuntos de datos de video del mundo real al descomponer la tarea en generación de movimiento y generación de imagen condicionada por movimiento. Demostramos la capacidad de InstantDrag para realizar ediciones rápidas y fotorrealistas sin máscaras ni textos de instrucción a través de experimentos en conjuntos de datos de video facial y escenas generales. Estos resultados resaltan la eficiencia de nuestro enfoque en el manejo de la edición de imágenes basada en arrastrar, convirtiéndolo en una solución prometedora para aplicaciones interactivas en tiempo real.
English
Drag-based image editing has recently gained popularity for its interactivity
and precision. However, despite the ability of text-to-image models to generate
samples within a second, drag editing still lags behind due to the challenge of
accurately reflecting user interaction while maintaining image content. Some
existing approaches rely on computationally intensive per-image optimization or
intricate guidance-based methods, requiring additional inputs such as masks for
movable regions and text prompts, thereby compromising the interactivity of the
editing process. We introduce InstantDrag, an optimization-free pipeline that
enhances interactivity and speed, requiring only an image and a drag
instruction as input. InstantDrag consists of two carefully designed networks:
a drag-conditioned optical flow generator (FlowGen) and an optical
flow-conditioned diffusion model (FlowDiffusion). InstantDrag learns motion
dynamics for drag-based image editing in real-world video datasets by
decomposing the task into motion generation and motion-conditioned image
generation. We demonstrate InstantDrag's capability to perform fast,
photo-realistic edits without masks or text prompts through experiments on
facial video datasets and general scenes. These results highlight the
efficiency of our approach in handling drag-based image editing, making it a
promising solution for interactive, real-time applications.Summary
AI-Generated Summary