InstantDrag: Mejorando la Interactividad en la Edición de Imágenes basada en ArrastrarInstantDrag: Improving Interactivity in Drag-based Image Editing
La edición de imágenes basada en arrastrar ha ganado popularidad recientemente por su interactividad y precisión. Sin embargo, a pesar de la capacidad de los modelos de texto a imagen para generar muestras en un segundo, la edición por arrastre aún se rezaga debido al desafío de reflejar con precisión la interacción del usuario manteniendo el contenido de la imagen. Algunos enfoques existentes se basan en optimizaciones intensivas computacionalmente por imagen o en métodos basados en guías intrincadas, que requieren entradas adicionales como máscaras para regiones móviles y textos de instrucción, comprometiendo así la interactividad del proceso de edición. Presentamos InstantDrag, un flujo de trabajo sin optimización que mejora la interactividad y la velocidad, requiriendo solo una imagen y una instrucción de arrastre como entrada. InstantDrag consta de dos redes cuidadosamente diseñadas: un generador de flujo óptico condicionado por arrastre (FlowGen) y un modelo de difusión condicionado por flujo óptico (FlowDiffusion). InstantDrag aprende la dinámica del movimiento para la edición de imágenes basada en arrastrar en conjuntos de datos de video del mundo real al descomponer la tarea en generación de movimiento y generación de imagen condicionada por movimiento. Demostramos la capacidad de InstantDrag para realizar ediciones rápidas y fotorrealistas sin máscaras ni textos de instrucción a través de experimentos en conjuntos de datos de video facial y escenas generales. Estos resultados resaltan la eficiencia de nuestro enfoque en el manejo de la edición de imágenes basada en arrastrar, convirtiéndolo en una solución prometedora para aplicaciones interactivas en tiempo real.