VD3D: Domando Grandes Transformadores de Difusão de Vídeo para Controle de Câmera 3D
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control
July 17, 2024
Autores: Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian, Michael Vasilkovsky, Hsin-Ying Lee, Chaoyang Wang, Jiaxu Zou, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov
cs.AI
Resumo
Os modelos modernos de síntese de texto para vídeo demonstram a geração coerente e fotorrealística de vídeos complexos a partir de uma descrição de texto. No entanto, a maioria dos modelos existentes carece de controle detalhado sobre o movimento da câmera, o que é crucial para aplicações relacionadas à criação de conteúdo, efeitos visuais e visão 3D. Recentemente, novos métodos demonstram a capacidade de gerar vídeos com poses de câmera controláveis, essas técnicas aproveitam modelos de difusão baseados em U-Net pré-treinados que desvendam explicitamente a geração espacial e temporal. Ainda assim, nenhum método existente permite o controle da câmera para novos modelos de difusão de vídeo baseados em transformer que processam informações espaciais e temporais em conjunto. Aqui, propomos domar transformers de vídeo para controle de câmera 3D usando um mecanismo de condicionamento semelhante ao ControlNet que incorpora embeddings de câmera espaço-temporais com base em coordenadas de Plücker. A abordagem demonstra desempenho de ponta para geração de vídeo controlável após o ajuste fino no conjunto de dados RealEstate10K. Até onde sabemos, nosso trabalho é o primeiro a permitir o controle de câmera para modelos de difusão de vídeo baseados em transformer.
English
Modern text-to-video synthesis models demonstrate coherent, photorealistic
generation of complex videos from a text description. However, most existing
models lack fine-grained control over camera movement, which is critical for
downstream applications related to content creation, visual effects, and 3D
vision. Recently, new methods demonstrate the ability to generate videos with
controllable camera poses these techniques leverage pre-trained U-Net-based
diffusion models that explicitly disentangle spatial and temporal generation.
Still, no existing approach enables camera control for new, transformer-based
video diffusion models that process spatial and temporal information jointly.
Here, we propose to tame video transformers for 3D camera control using a
ControlNet-like conditioning mechanism that incorporates spatiotemporal camera
embeddings based on Plucker coordinates. The approach demonstrates
state-of-the-art performance for controllable video generation after
fine-tuning on the RealEstate10K dataset. To the best of our knowledge, our
work is the first to enable camera control for transformer-based video
diffusion models.