CAT4D: Crea Cualquier Cosa en 4D con Modelos de Difusión de Video de Múltiples Vistas
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models
November 27, 2024
Autores: Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski
cs.AI
Resumen
Presentamos CAT4D, un método para crear escenas 4D (3D dinámico) a partir de video monocular. CAT4D aprovecha un modelo de difusión de video de múltiples vistas entrenado en una combinación diversa de conjuntos de datos para permitir la síntesis de vistas novedosas en poses y marcas de tiempo de cámara especificadas. Combinado con un enfoque de muestreo novedoso, este modelo puede transformar un solo video monocular en un video de múltiples vistas, permitiendo una reconstrucción 4D robusta mediante la optimización de una representación gaussiana 3D deformable. Demostramos un rendimiento competitivo en síntesis de vistas novedosas y benchmarks de reconstrucción de escenas dinámicas, y destacamos las capacidades creativas para la generación de escenas 4D a partir de videos reales o generados. Consulte nuestra página del proyecto para ver resultados y demos interactivas: cat-4d.github.io.
English
We present CAT4D, a method for creating 4D (dynamic 3D) scenes from monocular
video. CAT4D leverages a multi-view video diffusion model trained on a diverse
combination of datasets to enable novel view synthesis at any specified camera
poses and timestamps. Combined with a novel sampling approach, this model can
transform a single monocular video into a multi-view video, enabling robust 4D
reconstruction via optimization of a deformable 3D Gaussian representation. We
demonstrate competitive performance on novel view synthesis and dynamic scene
reconstruction benchmarks, and highlight the creative capabilities for 4D scene
generation from real or generated videos. See our project page for results and
interactive demos: cat-4d.github.io.Summary
AI-Generated Summary