SynCamMaster: Sincronización de Generación de Video Multicámara desde Diversos Puntos de VistaSynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse
Viewpoints
Los recientes avances en modelos de difusión de video han demostrado habilidades excepcionales para simular dinámicas del mundo real y mantener consistencia en 3D. Este progreso nos inspira a investigar el potencial de estos modelos para garantizar consistencia dinámica en varios puntos de vista, una característica altamente deseable para aplicaciones como la filmación virtual. A diferencia de los métodos existentes centrados en la generación de múltiples vistas de objetos individuales para la reconstrucción 4D, nuestro interés radica en generar videos de mundo abierto desde puntos de vista arbitrarios, incorporando poses de cámara de 6 grados de libertad. Para lograr esto, proponemos un módulo plug-and-play que mejora un modelo pre-entrenado de texto a video para la generación de videos de múltiples cámaras, asegurando un contenido consistente en diferentes puntos de vista. Específicamente, introducimos un módulo de sincronización de múltiples vistas para mantener la consistencia de apariencia y geometría en estos puntos de vista. Dada la escasez de datos de entrenamiento de alta calidad, diseñamos un esquema de entrenamiento híbrido que aprovecha imágenes de múltiples cámaras y videos monoculares para complementar videos de múltiples cámaras renderizados por Unreal Engine. Además, nuestro método permite extensiones interesantes, como volver a renderizar un video desde puntos de vista novedosos. También lanzamos un conjunto de datos de videos sincronizados de múltiples vistas, llamado SynCamVideo-Dataset. Página del proyecto: https://jianhongbai.github.io/SynCamMaster/.