DragVideo: Edición de video interactiva al estilo Drag
DragVideo: Interactive Drag-style Video Editing
December 3, 2023
Autores: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang
cs.AI
Resumen
La edición de contenido visual en videos sigue siendo un desafío formidable con dos problemas principales: 1) un control directo y sencillo por parte del usuario para producir 2) resultados de edición naturales sin distorsiones antiestéticas y artefactos después de cambiar la forma, la expresión y la disposición. Inspirados por DragGAN, una técnica reciente de edición basada en imágenes de estilo arrastre, abordamos los problemas mencionados proponiendo DragVideo, donde se adopta una interacción de usuario similar de estilo arrastre para editar contenido de video mientras se mantiene la consistencia temporal. Potenciado por modelos de difusión recientes como en DragDiffusion, DragVideo incluye el novedoso método de edición Drag-on-Video U-Net (DoVe), que optimiza los latentes de video difundidos generados por la U-Net de video para lograr el control deseado. Específicamente, utilizamos el ajuste fino LoRA específico de muestra y el control de Atención Mutua Auto-Referenciada para garantizar una reconstrucción fiel del video a partir del método DoVe. También presentamos una serie de ejemplos de prueba para la edición de video de estilo arrastre y realizamos experimentos exhaustivos en una amplia gama de tareas de edición desafiantes, como la edición de movimiento, la edición de esqueleto, etc., destacando la versatilidad y generalidad de DragVideo. Nuestros códigos, incluida la interfaz de usuario web de DragVideo, serán publicados.
English
Editing visual content on videos remains a formidable challenge with two main
issues: 1) direct and easy user control to produce 2) natural editing results
without unsightly distortion and artifacts after changing shape, expression and
layout. Inspired by DragGAN, a recent image-based drag-style editing technique,
we address above issues by proposing DragVideo, where a similar drag-style user
interaction is adopted to edit video content while maintaining temporal
consistency. Empowered by recent diffusion models as in DragDiffusion,
DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which
optimizes diffused video latents generated by video U-Net to achieve the
desired control. Specifically, we use Sample-specific LoRA fine-tuning and
Mutual Self-Attention control to ensure faithful reconstruction of video from
the DoVe method. We also present a series of testing examples for drag-style
video editing and conduct extensive experiments across a wide array of
challenging editing tasks, such as motion editing, skeleton editing, etc,
underscoring DragVideo's versatility and generality. Our codes including the
DragVideo web user interface will be released.