VD3D: Domando Grandes Transformadores de Difusión de Video para el Control de Cámara 3D
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control
July 17, 2024
Autores: Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian, Michael Vasilkovsky, Hsin-Ying Lee, Chaoyang Wang, Jiaxu Zou, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov
cs.AI
Resumen
Los modelos modernos de síntesis de texto a video demuestran una generación coherente y fotorrealista de videos complejos a partir de una descripción de texto. Sin embargo, la mayoría de los modelos existentes carecen de un control detallado sobre el movimiento de la cámara, lo cual es crucial para aplicaciones relacionadas con la creación de contenido, efectos visuales y visión 3D. Recientemente, nuevos métodos demuestran la capacidad de generar videos con poses de cámara controlables, estas técnicas aprovechan modelos de difusión basados en U-Net pre-entrenados que desentrelazan explícitamente la generación espacial y temporal. Aún así, ningún enfoque existente permite el control de cámara para nuevos modelos de difusión de video basados en transformadores que procesan información espacial y temporal de manera conjunta. En este trabajo, proponemos domesticar transformadores de video para el control de cámara 3D utilizando un mecanismo de condicionamiento similar a ControlNet que incorpora incrustaciones de cámara espaciotemporales basadas en coordenadas de Plücker. El enfoque demuestra un rendimiento de vanguardia para la generación de video controlable después de un ajuste fino en el conjunto de datos RealEstate10K. Hasta donde llega nuestro conocimiento, nuestro trabajo es el primero en permitir el control de cámara para modelos de difusión de video basados en transformadores.
English
Modern text-to-video synthesis models demonstrate coherent, photorealistic
generation of complex videos from a text description. However, most existing
models lack fine-grained control over camera movement, which is critical for
downstream applications related to content creation, visual effects, and 3D
vision. Recently, new methods demonstrate the ability to generate videos with
controllable camera poses these techniques leverage pre-trained U-Net-based
diffusion models that explicitly disentangle spatial and temporal generation.
Still, no existing approach enables camera control for new, transformer-based
video diffusion models that process spatial and temporal information jointly.
Here, we propose to tame video transformers for 3D camera control using a
ControlNet-like conditioning mechanism that incorporates spatiotemporal camera
embeddings based on Plucker coordinates. The approach demonstrates
state-of-the-art performance for controllable video generation after
fine-tuning on the RealEstate10K dataset. To the best of our knowledge, our
work is the first to enable camera control for transformer-based video
diffusion models.Summary
AI-Generated Summary