HoloTime: Domando Modelos de Difusión de Video para la Generación de Escenas Panorámicas 4D

Resumen

El rápido avance de los modelos de difusión promete revolucionar la aplicación de las tecnologías de realidad virtual (VR) y realidad aumentada (AR), que generalmente requieren activos 4D a nivel de escena para la experiencia del usuario. Sin embargo, los modelos de difusión existentes se concentran principalmente en modelar escenas 3D estáticas o dinámicas a nivel de objetos, lo que limita su capacidad para ofrecer experiencias verdaderamente inmersivas. Para abordar este problema, proponemos HoloTime, un marco que integra modelos de difusión de video para generar videos panorámicos a partir de una única indicación o imagen de referencia, junto con un método de reconstrucción 4D de 360 grados que transforma de manera fluida el video panorámico generado en activos 4D, permitiendo una experiencia 4D completamente inmersiva para los usuarios. Específicamente, para adaptar los modelos de difusión de video a la generación de videos panorámicos de alta fidelidad, presentamos el conjunto de datos 360World, la primera colección integral de videos panorámicos adecuados para tareas de reconstrucción 4D de escenas. Con este conjunto de datos curado, proponemos Panoramic Animator, un modelo de difusión de imagen a video en dos etapas que puede convertir imágenes panorámicas en videos panorámicos de alta calidad. A continuación, presentamos Panoramic Space-Time Reconstruction, que aprovecha un método de estimación de profundidad espacio-temporal para transformar los videos panorámicos generados en nubes de puntos 4D, permitiendo la optimización de una representación holística de 4D Gaussian Splatting para reconstruir escenas 4D espacial y temporalmente consistentes. Para validar la eficacia de nuestro método, realizamos un análisis comparativo con enfoques existentes, revelando su superioridad tanto en la generación de videos panorámicos como en la reconstrucción de escenas 4D. Esto demuestra la capacidad de nuestro método para crear entornos inmersivos más atractivos y realistas, mejorando así las experiencias de los usuarios en aplicaciones de VR y AR.

English

The rapid advancement of diffusion models holds the promise of revolutionizing the application of VR and AR technologies, which typically require scene-level 4D assets for user experience. Nonetheless, existing diffusion models predominantly concentrate on modeling static 3D scenes or object-level dynamics, constraining their capacity to provide truly immersive experiences. To address this issue, we propose HoloTime, a framework that integrates video diffusion models to generate panoramic videos from a single prompt or reference image, along with a 360-degree 4D scene reconstruction method that seamlessly transforms the generated panoramic video into 4D assets, enabling a fully immersive 4D experience for users. Specifically, to tame video diffusion models for generating high-fidelity panoramic videos, we introduce the 360World dataset, the first comprehensive collection of panoramic videos suitable for downstream 4D scene reconstruction tasks. With this curated dataset, we propose Panoramic Animator, a two-stage image-to-video diffusion model that can convert panoramic images into high-quality panoramic videos. Following this, we present Panoramic Space-Time Reconstruction, which leverages a space-time depth estimation method to transform the generated panoramic videos into 4D point clouds, enabling the optimization of a holistic 4D Gaussian Splatting representation to reconstruct spatially and temporally consistent 4D scenes. To validate the efficacy of our method, we conducted a comparative analysis with existing approaches, revealing its superiority in both panoramic video generation and 4D scene reconstruction. This demonstrates our method's capability to create more engaging and realistic immersive environments, thereby enhancing user experiences in VR and AR applications.

HoloTime: Domando Modelos de Difusión de Video para la Generación de Escenas Panorámicas 4D

HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation

Resumen

Support