DragVideo: Interactief Drag-stijl Video Bewerken
DragVideo: Interactive Drag-style Video Editing
December 3, 2023
Auteurs: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang
cs.AI
Samenvatting
Het bewerken van visuele inhoud in video's blijft een aanzienlijke uitdaging met twee belangrijke problemen: 1) directe en eenvoudige gebruikerscontrole om 2) natuurlijke bewerkingsresultaten te produceren zonder lelijke vervormingen en artefacten na het wijzigen van vorm, expressie en lay-out. Geïnspireerd door DragGAN, een recente beeldgebaseerde drag-style bewerkingstechniek, pakken we de bovenstaande problemen aan door DragVideo voor te stellen, waarbij een vergelijkbare drag-style gebruikersinteractie wordt toegepast om video-inhoud te bewerken terwijl temporele consistentie behouden blijft. Aangedreven door recente diffusiemodellen zoals in DragDiffusion, bevat DragVideo de nieuwe Drag-on-Video U-Net (DoVe) bewerkingsmethode, die gediffuseerde videolatenten gegenereerd door video U-Net optimaliseert om de gewenste controle te bereiken. Specifiek gebruiken we Sample-specifieke LoRA fine-tuning en Mutual Self-Attention controle om een nauwkeurige reconstructie van de video vanuit de DoVe-methode te garanderen. We presenteren ook een reeks testvoorbeelden voor drag-style videobewerking en voeren uitgebreide experimenten uit over een breed scala aan uitdagende bewerkingstaken, zoals bewerking van beweging, skeletbewerking, enz., wat de veelzijdigheid en algemeenheid van DragVideo benadrukt. Onze codes, inclusief de DragVideo webgebruikersinterface, zullen worden vrijgegeven.
English
Editing visual content on videos remains a formidable challenge with two main
issues: 1) direct and easy user control to produce 2) natural editing results
without unsightly distortion and artifacts after changing shape, expression and
layout. Inspired by DragGAN, a recent image-based drag-style editing technique,
we address above issues by proposing DragVideo, where a similar drag-style user
interaction is adopted to edit video content while maintaining temporal
consistency. Empowered by recent diffusion models as in DragDiffusion,
DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which
optimizes diffused video latents generated by video U-Net to achieve the
desired control. Specifically, we use Sample-specific LoRA fine-tuning and
Mutual Self-Attention control to ensure faithful reconstruction of video from
the DoVe method. We also present a series of testing examples for drag-style
video editing and conduct extensive experiments across a wide array of
challenging editing tasks, such as motion editing, skeleton editing, etc,
underscoring DragVideo's versatility and generality. Our codes including the
DragVideo web user interface will be released.