VD3D : Maîtriser les grands transformateurs de diffusion vidéo pour le contrôle de caméra 3D
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control
July 17, 2024
Auteurs: Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian, Michael Vasilkovsky, Hsin-Ying Lee, Chaoyang Wang, Jiaxu Zou, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov
cs.AI
Résumé
Les modèles modernes de synthèse texte-vidéo démontrent une génération cohérente et photoréaliste de vidéos complexes à partir d'une description textuelle. Cependant, la plupart des modèles existants manquent de contrôle fin sur les mouvements de caméra, ce qui est crucial pour les applications en aval liées à la création de contenu, aux effets visuels et à la vision 3D. Récemment, de nouvelles méthodes ont montré la capacité à générer des vidéos avec des poses de caméra contrôlables, en exploitant des modèles de diffusion basés sur U-Net pré-entraînés qui dissocient explicitement la génération spatiale et temporelle. Pourtant, aucune approche existante ne permet de contrôler la caméra pour les nouveaux modèles de diffusion vidéo basés sur des transformateurs, qui traitent conjointement les informations spatiales et temporelles. Ici, nous proposons de maîtriser les transformateurs vidéo pour le contrôle de caméra 3D en utilisant un mécanisme de conditionnement de type ControlNet qui intègre des embeddings spatiotemporels de caméra basés sur les coordonnées de Plücker. Cette approche démontre des performances de pointe pour la génération de vidéos contrôlables après un ajustement fin sur le jeu de données RealEstate10K. À notre connaissance, notre travail est le premier à permettre le contrôle de caméra pour les modèles de diffusion vidéo basés sur des transformateurs.
English
Modern text-to-video synthesis models demonstrate coherent, photorealistic
generation of complex videos from a text description. However, most existing
models lack fine-grained control over camera movement, which is critical for
downstream applications related to content creation, visual effects, and 3D
vision. Recently, new methods demonstrate the ability to generate videos with
controllable camera poses these techniques leverage pre-trained U-Net-based
diffusion models that explicitly disentangle spatial and temporal generation.
Still, no existing approach enables camera control for new, transformer-based
video diffusion models that process spatial and temporal information jointly.
Here, we propose to tame video transformers for 3D camera control using a
ControlNet-like conditioning mechanism that incorporates spatiotemporal camera
embeddings based on Plucker coordinates. The approach demonstrates
state-of-the-art performance for controllable video generation after
fine-tuning on the RealEstate10K dataset. To the best of our knowledge, our
work is the first to enable camera control for transformer-based video
diffusion models.Summary
AI-Generated Summary