ChatPaper.aiChatPaper

DragVideo : Édition vidéo interactive de style glisser-déposer

DragVideo: Interactive Drag-style Video Editing

December 3, 2023
Auteurs: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang
cs.AI

Résumé

L'édition de contenu visuel sur des vidéos reste un défi majeur, avec deux problèmes principaux : 1) un contrôle utilisateur direct et facile pour produire 2) des résultats d'édition naturels sans distorsion disgracieuse ni artefacts après modification de la forme, de l'expression et de la disposition. Inspiré par DragGAN, une technique récente d'édition de style glisser-déposer basée sur des images, nous abordons ces problèmes en proposant DragVideo, où une interaction utilisateur similaire de style glisser-déposer est adoptée pour éditer le contenu vidéo tout en maintenant la cohérence temporelle. Soutenu par les modèles de diffusion récents comme dans DragDiffusion, DragVideo intègre la nouvelle méthode d'édition Drag-on-Video U-Net (DoVe), qui optimise les latents de vidéo diffusés générés par le U-Net vidéo pour atteindre le contrôle souhaité. Plus précisément, nous utilisons un réglage fin LoRA spécifique à l'échantillon et un contrôle d'auto-attention mutuelle pour garantir une reconstruction fidèle de la vidéo à partir de la méthode DoVe. Nous présentons également une série d'exemples de test pour l'édition de vidéo de style glisser-déposer et menons des expériences approfondies sur un large éventail de tâches d'édition complexes, telles que l'édition de mouvement, l'édition de squelette, etc., mettant en avant la polyvalence et la généralité de DragVideo. Nos codes, y compris l'interface utilisateur web de DragVideo, seront publiés.
English
Editing visual content on videos remains a formidable challenge with two main issues: 1) direct and easy user control to produce 2) natural editing results without unsightly distortion and artifacts after changing shape, expression and layout. Inspired by DragGAN, a recent image-based drag-style editing technique, we address above issues by proposing DragVideo, where a similar drag-style user interaction is adopted to edit video content while maintaining temporal consistency. Empowered by recent diffusion models as in DragDiffusion, DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which optimizes diffused video latents generated by video U-Net to achieve the desired control. Specifically, we use Sample-specific LoRA fine-tuning and Mutual Self-Attention control to ensure faithful reconstruction of video from the DoVe method. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion editing, skeleton editing, etc, underscoring DragVideo's versatility and generality. Our codes including the DragVideo web user interface will be released.
PDF131December 15, 2024