SynCamMaster: Sincronización de Generación de Video Multicámara desde Diversos Puntos de Vista

Resumen

Los recientes avances en modelos de difusión de video han demostrado habilidades excepcionales para simular dinámicas del mundo real y mantener consistencia en 3D. Este progreso nos inspira a investigar el potencial de estos modelos para garantizar consistencia dinámica en varios puntos de vista, una característica altamente deseable para aplicaciones como la filmación virtual. A diferencia de los métodos existentes centrados en la generación de múltiples vistas de objetos individuales para la reconstrucción 4D, nuestro interés radica en generar videos de mundo abierto desde puntos de vista arbitrarios, incorporando poses de cámara de 6 grados de libertad. Para lograr esto, proponemos un módulo plug-and-play que mejora un modelo pre-entrenado de texto a video para la generación de videos de múltiples cámaras, asegurando un contenido consistente en diferentes puntos de vista. Específicamente, introducimos un módulo de sincronización de múltiples vistas para mantener la consistencia de apariencia y geometría en estos puntos de vista. Dada la escasez de datos de entrenamiento de alta calidad, diseñamos un esquema de entrenamiento híbrido que aprovecha imágenes de múltiples cámaras y videos monoculares para complementar videos de múltiples cámaras renderizados por Unreal Engine. Además, nuestro método permite extensiones interesantes, como volver a renderizar un video desde puntos de vista novedosos. También lanzamos un conjunto de datos de videos sincronizados de múltiples vistas, llamado SynCamVideo-Dataset. Página del proyecto: https://jianhongbai.github.io/SynCamMaster/.

English

Recent advancements in video diffusion models have shown exceptional abilities in simulating real-world dynamics and maintaining 3D consistency. This progress inspires us to investigate the potential of these models to ensure dynamic consistency across various viewpoints, a highly desirable feature for applications such as virtual filming. Unlike existing methods focused on multi-view generation of single objects for 4D reconstruction, our interest lies in generating open-world videos from arbitrary viewpoints, incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play module that enhances a pre-trained text-to-video model for multi-camera video generation, ensuring consistent content across different viewpoints. Specifically, we introduce a multi-view synchronization module to maintain appearance and geometry consistency across these viewpoints. Given the scarcity of high-quality training data, we design a hybrid training scheme that leverages multi-camera images and monocular videos to supplement Unreal Engine-rendered multi-camera videos. Furthermore, our method enables intriguing extensions, such as re-rendering a video from novel viewpoints. We also release a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project page: https://jianhongbai.github.io/SynCamMaster/.

SynCamMaster: Sincronización de Generación de Video Multicámara desde Diversos Puntos de Vista

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

Resumen

Support