SynCamMaster: Sincronización de Generación de Video Multicámara desde Diversos Puntos de Vista
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
December 10, 2024
Autores: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang
cs.AI
Resumen
Los recientes avances en modelos de difusión de video han demostrado habilidades excepcionales para simular dinámicas del mundo real y mantener consistencia en 3D. Este progreso nos inspira a investigar el potencial de estos modelos para garantizar consistencia dinámica en varios puntos de vista, una característica altamente deseable para aplicaciones como la filmación virtual. A diferencia de los métodos existentes centrados en la generación de múltiples vistas de objetos individuales para la reconstrucción 4D, nuestro interés radica en generar videos de mundo abierto desde puntos de vista arbitrarios, incorporando poses de cámara de 6 grados de libertad. Para lograr esto, proponemos un módulo plug-and-play que mejora un modelo pre-entrenado de texto a video para la generación de videos de múltiples cámaras, asegurando un contenido consistente en diferentes puntos de vista. Específicamente, introducimos un módulo de sincronización de múltiples vistas para mantener la consistencia de apariencia y geometría en estos puntos de vista. Dada la escasez de datos de entrenamiento de alta calidad, diseñamos un esquema de entrenamiento híbrido que aprovecha imágenes de múltiples cámaras y videos monoculares para complementar videos de múltiples cámaras renderizados por Unreal Engine. Además, nuestro método permite extensiones interesantes, como volver a renderizar un video desde puntos de vista novedosos. También lanzamos un conjunto de datos de videos sincronizados de múltiples vistas, llamado SynCamVideo-Dataset. Página del proyecto: https://jianhongbai.github.io/SynCamMaster/.
English
Recent advancements in video diffusion models have shown exceptional
abilities in simulating real-world dynamics and maintaining 3D consistency.
This progress inspires us to investigate the potential of these models to
ensure dynamic consistency across various viewpoints, a highly desirable
feature for applications such as virtual filming. Unlike existing methods
focused on multi-view generation of single objects for 4D reconstruction, our
interest lies in generating open-world videos from arbitrary viewpoints,
incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play
module that enhances a pre-trained text-to-video model for multi-camera video
generation, ensuring consistent content across different viewpoints.
Specifically, we introduce a multi-view synchronization module to maintain
appearance and geometry consistency across these viewpoints. Given the scarcity
of high-quality training data, we design a hybrid training scheme that
leverages multi-camera images and monocular videos to supplement Unreal
Engine-rendered multi-camera videos. Furthermore, our method enables intriguing
extensions, such as re-rendering a video from novel viewpoints. We also release
a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project
page: https://jianhongbai.github.io/SynCamMaster/.Summary
AI-Generated Summary