DragVideo: Modifica Video Interattiva con Stile Drag

Abstract

La modifica di contenuti visivi nei video rimane una sfida significativa, caratterizzata da due problemi principali: 1) un controllo diretto e semplice da parte dell'utente per ottenere 2) risultati di editing naturali, privi di distorsioni antiestetiche e artefatti dopo aver modificato forma, espressione e disposizione. Ispirati da DragGAN, una recente tecnica di editing basata su immagini di tipo "drag", affrontiamo i suddetti problemi proponendo DragVideo, dove viene adottata un'interazione utente simile per modificare il contenuto video mantenendo la coerenza temporale. Potenziato dai recenti modelli di diffusione come in DragDiffusion, DragVideo include il nuovo metodo di editing Drag-on-Video U-Net (DoVe), che ottimizza i latenti video diffusi generati da una video U-Net per raggiungere il controllo desiderato. Nello specifico, utilizziamo il fine-tuning Sample-specific LoRA e il controllo Mutual Self-Attention per garantire una ricostruzione fedele del video tramite il metodo DoVe. Presentiamo inoltre una serie di esempi di test per l'editing video di tipo "drag" e conduciamo esperimenti approfonditi su un'ampia gamma di compiti di editing complessi, come la modifica del movimento, dello scheletro, ecc., evidenziando la versatilità e la generalità di DragVideo. I nostri codici, inclusa l'interfaccia utente web di DragVideo, verranno rilasciati.

English

Editing visual content on videos remains a formidable challenge with two main issues: 1) direct and easy user control to produce 2) natural editing results without unsightly distortion and artifacts after changing shape, expression and layout. Inspired by DragGAN, a recent image-based drag-style editing technique, we address above issues by proposing DragVideo, where a similar drag-style user interaction is adopted to edit video content while maintaining temporal consistency. Empowered by recent diffusion models as in DragDiffusion, DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which optimizes diffused video latents generated by video U-Net to achieve the desired control. Specifically, we use Sample-specific LoRA fine-tuning and Mutual Self-Attention control to ensure faithful reconstruction of video from the DoVe method. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion editing, skeleton editing, etc, underscoring DragVideo's versatility and generality. Our codes including the DragVideo web user interface will be released.

DragVideo: Modifica Video Interattiva con Stile Drag

DragVideo: Interactive Drag-style Video Editing

Abstract

Support