VMC: Video Motion Customisering met Temporele Aandacht Aanpassing voor Tekst-naar-Video Diffusiemodellen
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models
December 1, 2023
Auteurs: Hyeonho Jeong, Geon Yeong Park, Jong Chul Ye
cs.AI
Samenvatting
Text-to-video diffusiemodellen hebben de videogeneratie aanzienlijk vooruitgebracht.
Het aanpassen van deze modellen om video's met op maat gemaakte bewegingen te genereren,
vormt echter een aanzienlijke uitdaging. Specifiek lopen ze tegen problemen aan bij (a)
het nauwkeurig reproduceren van bewegingen uit een doelvideo, en (b) het creëren van diverse
visuele variaties. Zo leiden eenvoudige uitbreidingen van methoden voor het aanpassen van statische afbeeldingen
aan video vaak tot ingewikkelde verstrengelingen van
uiterlijk en bewegingsdata. Om dit aan te pakken, presenteren wij hier het Video Motion
Customization (VMC) framework, een nieuwe one-shot afstemmingsmethode ontworpen om
tijdelijke aandachtslagen binnen videodiffusiemodellen aan te passen. Onze aanpak
introduceert een nieuw bewegingsdistillatiedoel met behulp van restvectoren tussen
opeenvolgende frames als bewegingsreferentie. Het diffusieproces behoudt vervolgens
laagfrequente bewegingsbanen terwijl hoogfrequente
bewegingsonafhankelijke ruis in de beeldruimte wordt verminderd. We valideren onze methode tegen
state-of-the-art videogeneratieve modellen in diverse real-world bewegingen en
contexten. Onze codes, data en de projectdemo zijn te vinden op
https://video-motion-customization.github.io.
English
Text-to-video diffusion models have advanced video generation significantly.
However, customizing these models to generate videos with tailored motions
presents a substantial challenge. In specific, they encounter hurdles in (a)
accurately reproducing motion from a target video, and (b) creating diverse
visual variations. For example, straightforward extensions of static image
customization methods to video often lead to intricate entanglements of
appearance and motion data. To tackle this, here we present the Video Motion
Customization (VMC) framework, a novel one-shot tuning approach crafted to
adapt temporal attention layers within video diffusion models. Our approach
introduces a novel motion distillation objective using residual vectors between
consecutive frames as a motion reference. The diffusion process then preserves
low-frequency motion trajectories while mitigating high-frequency
motion-unrelated noise in image space. We validate our method against
state-of-the-art video generative models across diverse real-world motions and
contexts. Our codes, data and the project demo can be found at
https://video-motion-customization.github.io