VMC: Personalizzazione del Movimento Video mediante Adattamento dell'Attenzione Temporale per Modelli di Diffusione da Testo a Video

Abstract

I modelli di diffusione text-to-video hanno fatto avanzare significativamente la generazione di video. Tuttavia, personalizzare questi modelli per generare video con movimenti specifici rappresenta una sfida considerevole. In particolare, incontrano difficoltà nel (a) riprodurre accuratamente il movimento da un video di riferimento e (b) creare variazioni visive diversificate. Ad esempio, estensioni dirette dei metodi di personalizzazione delle immagini statiche ai video spesso portano a intricati intrecci tra dati di aspetto e movimento. Per affrontare questo problema, presentiamo qui il framework Video Motion Customization (VMC), un approccio innovativo di ottimizzazione one-shot progettato per adattare i livelli di attenzione temporale all'interno dei modelli di diffusione video. Il nostro approccio introduce un nuovo obiettivo di distillazione del movimento utilizzando vettori residui tra frame consecutivi come riferimento di movimento. Il processo di diffusione preserva quindi le traiettorie di movimento a bassa frequenza, mitigando il rumore ad alta frequenza non correlato al movimento nello spazio delle immagini. Validiamo il nostro metodo confrontandolo con i migliori modelli generativi video in una varietà di movimenti e contesti del mondo reale. I nostri codici, dati e la demo del progetto sono disponibili su https://video-motion-customization.github.io.

English

Text-to-video diffusion models have advanced video generation significantly. However, customizing these models to generate videos with tailored motions presents a substantial challenge. In specific, they encounter hurdles in (a) accurately reproducing motion from a target video, and (b) creating diverse visual variations. For example, straightforward extensions of static image customization methods to video often lead to intricate entanglements of appearance and motion data. To tackle this, here we present the Video Motion Customization (VMC) framework, a novel one-shot tuning approach crafted to adapt temporal attention layers within video diffusion models. Our approach introduces a novel motion distillation objective using residual vectors between consecutive frames as a motion reference. The diffusion process then preserves low-frequency motion trajectories while mitigating high-frequency motion-unrelated noise in image space. We validate our method against state-of-the-art video generative models across diverse real-world motions and contexts. Our codes, data and the project demo can be found at https://video-motion-customization.github.io

VMC: Personalizzazione del Movimento Video mediante Adattamento dell'Attenzione Temporale per Modelli di Diffusione da Testo a Video

VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models

Abstract

Support