DragVideo: Modifica Video Interattiva con Stile Drag
DragVideo: Interactive Drag-style Video Editing
December 3, 2023
Autori: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang
cs.AI
Abstract
La modifica di contenuti visivi nei video rimane una sfida significativa, caratterizzata da due problemi principali: 1) un controllo diretto e semplice da parte dell'utente per ottenere 2) risultati di editing naturali, privi di distorsioni antiestetiche e artefatti dopo aver modificato forma, espressione e disposizione. Ispirati da DragGAN, una recente tecnica di editing basata su immagini di tipo "drag", affrontiamo i suddetti problemi proponendo DragVideo, dove viene adottata un'interazione utente simile per modificare il contenuto video mantenendo la coerenza temporale. Potenziato dai recenti modelli di diffusione come in DragDiffusion, DragVideo include il nuovo metodo di editing Drag-on-Video U-Net (DoVe), che ottimizza i latenti video diffusi generati da una video U-Net per raggiungere il controllo desiderato. Nello specifico, utilizziamo il fine-tuning Sample-specific LoRA e il controllo Mutual Self-Attention per garantire una ricostruzione fedele del video tramite il metodo DoVe. Presentiamo inoltre una serie di esempi di test per l'editing video di tipo "drag" e conduciamo esperimenti approfonditi su un'ampia gamma di compiti di editing complessi, come la modifica del movimento, dello scheletro, ecc., evidenziando la versatilità e la generalità di DragVideo. I nostri codici, inclusa l'interfaccia utente web di DragVideo, verranno rilasciati.
English
Editing visual content on videos remains a formidable challenge with two main
issues: 1) direct and easy user control to produce 2) natural editing results
without unsightly distortion and artifacts after changing shape, expression and
layout. Inspired by DragGAN, a recent image-based drag-style editing technique,
we address above issues by proposing DragVideo, where a similar drag-style user
interaction is adopted to edit video content while maintaining temporal
consistency. Empowered by recent diffusion models as in DragDiffusion,
DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which
optimizes diffused video latents generated by video U-Net to achieve the
desired control. Specifically, we use Sample-specific LoRA fine-tuning and
Mutual Self-Attention control to ensure faithful reconstruction of video from
the DoVe method. We also present a series of testing examples for drag-style
video editing and conduct extensive experiments across a wide array of
challenging editing tasks, such as motion editing, skeleton editing, etc,
underscoring DragVideo's versatility and generality. Our codes including the
DragVideo web user interface will be released.