VD3D: Domare i grandi trasformatori di diffusione video per il controllo della telecamera 3D
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control
July 17, 2024
Autori: Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian, Michael Vasilkovsky, Hsin-Ying Lee, Chaoyang Wang, Jiaxu Zou, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov
cs.AI
Abstract
I moderni modelli di sintesi testo-video dimostrano una generazione coerente e fotorealistica di video complessi a partire da una descrizione testuale. Tuttavia, la maggior parte dei modelli esistenti manca di un controllo fine sui movimenti della telecamera, che è cruciale per applicazioni downstream legate alla creazione di contenuti, effetti visivi e visione 3D. Recentemente, nuovi metodi hanno dimostrato la capacità di generare video con pose della telecamera controllabili, sfruttando modelli di diffusione basati su U-Net pre-addestrati che separano esplicitamente la generazione spaziale e temporale. Tuttavia, nessun approccio esistente consente il controllo della telecamera per i nuovi modelli di diffusione video basati su transformer, che elaborano congiuntamente le informazioni spaziali e temporali. Qui, proponiamo di addomesticare i transformer video per il controllo della telecamera 3D utilizzando un meccanismo di condizionamento simile a ControlNet che incorpora embedding spazio-temporali della telecamera basati su coordinate di Plücker. L'approccio dimostra prestazioni all'avanguardia per la generazione video controllabile dopo il fine-tuning sul dataset RealEstate10K. Per quanto ne sappiamo, il nostro lavoro è il primo a consentire il controllo della telecamera per modelli di diffusione video basati su transformer.
English
Modern text-to-video synthesis models demonstrate coherent, photorealistic
generation of complex videos from a text description. However, most existing
models lack fine-grained control over camera movement, which is critical for
downstream applications related to content creation, visual effects, and 3D
vision. Recently, new methods demonstrate the ability to generate videos with
controllable camera poses these techniques leverage pre-trained U-Net-based
diffusion models that explicitly disentangle spatial and temporal generation.
Still, no existing approach enables camera control for new, transformer-based
video diffusion models that process spatial and temporal information jointly.
Here, we propose to tame video transformers for 3D camera control using a
ControlNet-like conditioning mechanism that incorporates spatiotemporal camera
embeddings based on Plucker coordinates. The approach demonstrates
state-of-the-art performance for controllable video generation after
fine-tuning on the RealEstate10K dataset. To the best of our knowledge, our
work is the first to enable camera control for transformer-based video
diffusion models.