ChatPaper.aiChatPaper

DragVideo: Interaktive Drag-Stil-Videobearbeitung

DragVideo: Interactive Drag-style Video Editing

December 3, 2023
Autoren: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang
cs.AI

Zusammenfassung

Die Bearbeitung visueller Inhalte in Videos bleibt eine große Herausforderung mit zwei Hauptproblemen: 1) direkte und einfache Benutzersteuerung, um 2) natürliche Bearbeitungsergebnisse ohne störende Verzerrungen und Artefakte nach der Veränderung von Form, Ausdruck und Layout zu erzielen. Inspiriert von DragGAN, einer kürzlich entwickelten bildbasierten Drag-Style-Bearbeitungstechnik, gehen wir diese Probleme an, indem wir DragVideo vorschlagen, bei dem eine ähnliche Drag-Style-Benutzerinteraktion zur Bearbeitung von Videoinhalten unter Beibehaltung der zeitlichen Konsistenz verwendet wird. Gestärkt durch aktuelle Diffusionsmodelle wie in DragDiffusion, enthält DragVideo die neuartige Drag-on-Video U-Net (DoVe)-Bearbeitungsmethode, die diffundierte Video-Latents optimiert, die vom Video U-Net erzeugt werden, um die gewünschte Steuerung zu erreichen. Insbesondere verwenden wir Sample-spezifisches LoRA-Fine-Tuning und Mutual Self-Attention-Steuerung, um eine treue Rekonstruktion des Videos mit der DoVe-Methode sicherzustellen. Wir präsentieren auch eine Reihe von Testbeispielen für die Drag-Style-Videobearbeitung und führen umfangreiche Experimente über eine Vielzahl anspruchsvoller Bearbeitungsaufgaben durch, wie z.B. Bewegungsbearbeitung, Skelettbearbeitung usw., die die Vielseitigkeit und Allgemeingültigkeit von DragVideo unterstreichen. Unser Code, einschließlich der DragVideo-Web-Benutzeroberfläche, wird veröffentlicht.
English
Editing visual content on videos remains a formidable challenge with two main issues: 1) direct and easy user control to produce 2) natural editing results without unsightly distortion and artifacts after changing shape, expression and layout. Inspired by DragGAN, a recent image-based drag-style editing technique, we address above issues by proposing DragVideo, where a similar drag-style user interaction is adopted to edit video content while maintaining temporal consistency. Empowered by recent diffusion models as in DragDiffusion, DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which optimizes diffused video latents generated by video U-Net to achieve the desired control. Specifically, we use Sample-specific LoRA fine-tuning and Mutual Self-Attention control to ensure faithful reconstruction of video from the DoVe method. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion editing, skeleton editing, etc, underscoring DragVideo's versatility and generality. Our codes including the DragVideo web user interface will be released.
PDF131December 15, 2024