ChatPaper.aiChatPaper

DragVideo: Edição de Vídeo Interativa no Estilo Drag

DragVideo: Interactive Drag-style Video Editing

December 3, 2023
Autores: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang
cs.AI

Resumo

A edição de conteúdo visual em vídeos continua sendo um desafio formidável, com dois problemas principais: 1) controle direto e fácil por parte do usuário para produzir 2) resultados de edição naturais, sem distorções e artefatos visíveis após alterações de forma, expressão e layout. Inspirados pelo DragGAN, uma técnica recente de edição estilo "arrastar" baseada em imagens, abordamos os problemas acima propondo o DragVideo, onde uma interação de usuário semelhante ao estilo "arrastar" é adotada para editar conteúdo de vídeo enquanto mantém a consistência temporal. Potencializado por modelos de difusão recentes, como no DragDiffusion, o DragVideo contém o novo método de edição Drag-on-Video U-Net (DoVe), que otimiza os latentes de vídeo difundidos gerados pelo U-Net de vídeo para alcançar o controle desejado. Especificamente, utilizamos o ajuste fino Sample-specific LoRA e o controle Mutual Self-Attention para garantir uma reconstrução fiel do vídeo a partir do método DoVe. Também apresentamos uma série de exemplos de teste para edição de vídeo estilo "arrastar" e conduzimos extensos experimentos em uma ampla gama de tarefas de edição desafiadoras, como edição de movimento, edição de esqueleto, etc., destacando a versatilidade e generalidade do DragVideo. Nossos códigos, incluindo a interface de usuário web do DragVideo, serão liberados.
English
Editing visual content on videos remains a formidable challenge with two main issues: 1) direct and easy user control to produce 2) natural editing results without unsightly distortion and artifacts after changing shape, expression and layout. Inspired by DragGAN, a recent image-based drag-style editing technique, we address above issues by proposing DragVideo, where a similar drag-style user interaction is adopted to edit video content while maintaining temporal consistency. Empowered by recent diffusion models as in DragDiffusion, DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which optimizes diffused video latents generated by video U-Net to achieve the desired control. Specifically, we use Sample-specific LoRA fine-tuning and Mutual Self-Attention control to ensure faithful reconstruction of video from the DoVe method. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion editing, skeleton editing, etc, underscoring DragVideo's versatility and generality. Our codes including the DragVideo web user interface will be released.
PDF131December 14, 2025