DragVideo: Edição de Vídeo Interativa no Estilo Drag
DragVideo: Interactive Drag-style Video Editing
December 3, 2023
Autores: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang
cs.AI
Resumo
A edição de conteúdo visual em vídeos continua sendo um desafio formidável, com dois problemas principais: 1) controle direto e fácil por parte do usuário para produzir 2) resultados de edição naturais, sem distorções e artefatos visíveis após alterações de forma, expressão e layout. Inspirados pelo DragGAN, uma técnica recente de edição estilo "arrastar" baseada em imagens, abordamos os problemas acima propondo o DragVideo, onde uma interação de usuário semelhante ao estilo "arrastar" é adotada para editar conteúdo de vídeo enquanto mantém a consistência temporal. Potencializado por modelos de difusão recentes, como no DragDiffusion, o DragVideo contém o novo método de edição Drag-on-Video U-Net (DoVe), que otimiza os latentes de vídeo difundidos gerados pelo U-Net de vídeo para alcançar o controle desejado. Especificamente, utilizamos o ajuste fino Sample-specific LoRA e o controle Mutual Self-Attention para garantir uma reconstrução fiel do vídeo a partir do método DoVe. Também apresentamos uma série de exemplos de teste para edição de vídeo estilo "arrastar" e conduzimos extensos experimentos em uma ampla gama de tarefas de edição desafiadoras, como edição de movimento, edição de esqueleto, etc., destacando a versatilidade e generalidade do DragVideo. Nossos códigos, incluindo a interface de usuário web do DragVideo, serão liberados.
English
Editing visual content on videos remains a formidable challenge with two main
issues: 1) direct and easy user control to produce 2) natural editing results
without unsightly distortion and artifacts after changing shape, expression and
layout. Inspired by DragGAN, a recent image-based drag-style editing technique,
we address above issues by proposing DragVideo, where a similar drag-style user
interaction is adopted to edit video content while maintaining temporal
consistency. Empowered by recent diffusion models as in DragDiffusion,
DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which
optimizes diffused video latents generated by video U-Net to achieve the
desired control. Specifically, we use Sample-specific LoRA fine-tuning and
Mutual Self-Attention control to ensure faithful reconstruction of video from
the DoVe method. We also present a series of testing examples for drag-style
video editing and conduct extensive experiments across a wide array of
challenging editing tasks, such as motion editing, skeleton editing, etc,
underscoring DragVideo's versatility and generality. Our codes including the
DragVideo web user interface will be released.