Direct-a-Video: Generazione Personalizzata di Video con Movimento della Fotocamera e Movimento degli Oggetti Diretti dall'Utente
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion
February 5, 2024
Autori: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao
cs.AI
Abstract
I recenti modelli di diffusione testo-video hanno compiuto progressi impressionanti. Nella pratica, gli utenti desiderano spesso la capacità di controllare in modo indipendente il movimento degli oggetti e quello della telecamera per creare video personalizzati. Tuttavia, i metodi attuali non si concentrano sul controllo separato del movimento degli oggetti e della telecamera in modo disaccoppiato, il che limita la controllabilità e la flessibilità dei modelli testo-video. In questo articolo, presentiamo Direct-a-Video, un sistema che consente agli utenti di specificare in modo indipendente i movimenti per uno o più oggetti e/o i movimenti della telecamera, come se stessero dirigendo un video. Proponiamo una strategia semplice ma efficace per il controllo disaccoppiato del movimento degli oggetti e della telecamera. Il movimento degli oggetti è controllato attraverso la modulazione dell'attenzione incrociata spaziale utilizzando i priori intrinseci del modello, senza necessità di ottimizzazione aggiuntiva. Per il movimento della telecamera, introduciamo nuovi strati di attenzione incrociata temporale per interpretare i parametri quantitativi del movimento della telecamera. Utilizziamo inoltre un approccio basato sull'aumento dei dati per addestrare questi strati in modo auto-supervisionato su un dataset di piccole dimensioni, eliminando la necessità di annotazioni esplicite del movimento. Entrambe le componenti operano in modo indipendente, consentendo un controllo individuale o combinato, e possono generalizzare a scenari di dominio aperto. Esperimenti estensivi dimostrano la superiorità e l'efficacia del nostro metodo. Pagina del progetto: https://direct-a-video.github.io/.
English
Recent text-to-video diffusion models have achieved impressive progress. In
practice, users often desire the ability to control object motion and camera
movement independently for customized video creation. However, current methods
lack the focus on separately controlling object motion and camera movement in a
decoupled manner, which limits the controllability and flexibility of
text-to-video models. In this paper, we introduce Direct-a-Video, a system that
allows users to independently specify motions for one or multiple objects
and/or camera movements, as if directing a video. We propose a simple yet
effective strategy for the decoupled control of object motion and camera
movement. Object motion is controlled through spatial cross-attention
modulation using the model's inherent priors, requiring no additional
optimization. For camera movement, we introduce new temporal cross-attention
layers to interpret quantitative camera movement parameters. We further employ
an augmentation-based approach to train these layers in a self-supervised
manner on a small-scale dataset, eliminating the need for explicit motion
annotation. Both components operate independently, allowing individual or
combined control, and can generalize to open-domain scenarios. Extensive
experiments demonstrate the superiority and effectiveness of our method.
Project page: https://direct-a-video.github.io/.