VD3D: Het temmen van grote videodiffusie-transformers voor 3D-camerabesturing
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control
July 17, 2024
Auteurs: Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian, Michael Vasilkovsky, Hsin-Ying Lee, Chaoyang Wang, Jiaxu Zou, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov
cs.AI
Samenvatting
Moderne tekst-naar-video-synthesemodellen tonen coherente, fotorealistische generatie van complexe video's vanuit een tekstbeschrijving. De meeste bestaande modellen bieden echter geen fijnmazige controle over camerabeweging, wat cruciaal is voor downstream-toepassingen gerelateerd aan contentcreatie, visuele effecten en 3D-visie. Recentelijk hebben nieuwe methoden het vermogen aangetoond om video's te genereren met controleerbare cameraposities; deze technieken maken gebruik van vooraf getrainde U-Net-gebaseerde diffusiemodellen die ruimtelijke en temporele generatie expliciet ontwarren. Toch maakt geen enkele bestaande aanpak cameracontrole mogelijk voor nieuwe, transformer-gebaseerde videodiffusiemodellen die ruimtelijke en temporele informatie gezamenlijk verwerken. Hier stellen we voor om videotransformers te temmen voor 3D-cameracontrole met behulp van een ControlNet-achtig conditioneringsmechanisme dat spatiotemporele camera-embeddingen op basis van Plücker-coördinaten integreert. De aanpak toont state-of-the-art prestaties voor controleerbare videogeneratie na fine-tuning op de RealEstate10K-dataset. Voor zover wij weten, is ons werk het eerste dat cameracontrole mogelijk maakt voor transformer-gebaseerde videodiffusiemodellen.
English
Modern text-to-video synthesis models demonstrate coherent, photorealistic
generation of complex videos from a text description. However, most existing
models lack fine-grained control over camera movement, which is critical for
downstream applications related to content creation, visual effects, and 3D
vision. Recently, new methods demonstrate the ability to generate videos with
controllable camera poses these techniques leverage pre-trained U-Net-based
diffusion models that explicitly disentangle spatial and temporal generation.
Still, no existing approach enables camera control for new, transformer-based
video diffusion models that process spatial and temporal information jointly.
Here, we propose to tame video transformers for 3D camera control using a
ControlNet-like conditioning mechanism that incorporates spatiotemporal camera
embeddings based on Plucker coordinates. The approach demonstrates
state-of-the-art performance for controllable video generation after
fine-tuning on the RealEstate10K dataset. To the best of our knowledge, our
work is the first to enable camera control for transformer-based video
diffusion models.