VMC: Personalizzazione del Movimento Video mediante Adattamento dell'Attenzione Temporale per Modelli di Diffusione da Testo a Video
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models
December 1, 2023
Autori: Hyeonho Jeong, Geon Yeong Park, Jong Chul Ye
cs.AI
Abstract
I modelli di diffusione text-to-video hanno fatto avanzare significativamente la generazione di video. Tuttavia, personalizzare questi modelli per generare video con movimenti specifici rappresenta una sfida considerevole. In particolare, incontrano difficoltà nel (a) riprodurre accuratamente il movimento da un video di riferimento e (b) creare variazioni visive diversificate. Ad esempio, estensioni dirette dei metodi di personalizzazione delle immagini statiche ai video spesso portano a intricati intrecci tra dati di aspetto e movimento. Per affrontare questo problema, presentiamo qui il framework Video Motion Customization (VMC), un approccio innovativo di ottimizzazione one-shot progettato per adattare i livelli di attenzione temporale all'interno dei modelli di diffusione video. Il nostro approccio introduce un nuovo obiettivo di distillazione del movimento utilizzando vettori residui tra frame consecutivi come riferimento di movimento. Il processo di diffusione preserva quindi le traiettorie di movimento a bassa frequenza, mitigando il rumore ad alta frequenza non correlato al movimento nello spazio delle immagini. Validiamo il nostro metodo confrontandolo con i migliori modelli generativi video in una varietà di movimenti e contesti del mondo reale. I nostri codici, dati e la demo del progetto sono disponibili su https://video-motion-customization.github.io.
English
Text-to-video diffusion models have advanced video generation significantly.
However, customizing these models to generate videos with tailored motions
presents a substantial challenge. In specific, they encounter hurdles in (a)
accurately reproducing motion from a target video, and (b) creating diverse
visual variations. For example, straightforward extensions of static image
customization methods to video often lead to intricate entanglements of
appearance and motion data. To tackle this, here we present the Video Motion
Customization (VMC) framework, a novel one-shot tuning approach crafted to
adapt temporal attention layers within video diffusion models. Our approach
introduces a novel motion distillation objective using residual vectors between
consecutive frames as a motion reference. The diffusion process then preserves
low-frequency motion trajectories while mitigating high-frequency
motion-unrelated noise in image space. We validate our method against
state-of-the-art video generative models across diverse real-world motions and
contexts. Our codes, data and the project demo can be found at
https://video-motion-customization.github.io