HoloTime: Domando Modelos de Difusión de Video para la Generación de Escenas Panorámicas 4D
HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation
April 30, 2025
Autores: Haiyang Zhou, Wangbo Yu, Jiawen Guan, Xinhua Cheng, Yonghong Tian, Li Yuan
cs.AI
Resumen
El rápido avance de los modelos de difusión promete revolucionar la aplicación de las tecnologías de realidad virtual (VR) y realidad aumentada (AR), que generalmente requieren activos 4D a nivel de escena para la experiencia del usuario. Sin embargo, los modelos de difusión existentes se concentran principalmente en modelar escenas 3D estáticas o dinámicas a nivel de objetos, lo que limita su capacidad para ofrecer experiencias verdaderamente inmersivas. Para abordar este problema, proponemos HoloTime, un marco que integra modelos de difusión de video para generar videos panorámicos a partir de una única indicación o imagen de referencia, junto con un método de reconstrucción 4D de 360 grados que transforma de manera fluida el video panorámico generado en activos 4D, permitiendo una experiencia 4D completamente inmersiva para los usuarios. Específicamente, para adaptar los modelos de difusión de video a la generación de videos panorámicos de alta fidelidad, presentamos el conjunto de datos 360World, la primera colección integral de videos panorámicos adecuados para tareas de reconstrucción 4D de escenas. Con este conjunto de datos curado, proponemos Panoramic Animator, un modelo de difusión de imagen a video en dos etapas que puede convertir imágenes panorámicas en videos panorámicos de alta calidad. A continuación, presentamos Panoramic Space-Time Reconstruction, que aprovecha un método de estimación de profundidad espacio-temporal para transformar los videos panorámicos generados en nubes de puntos 4D, permitiendo la optimización de una representación holística de 4D Gaussian Splatting para reconstruir escenas 4D espacial y temporalmente consistentes. Para validar la eficacia de nuestro método, realizamos un análisis comparativo con enfoques existentes, revelando su superioridad tanto en la generación de videos panorámicos como en la reconstrucción de escenas 4D. Esto demuestra la capacidad de nuestro método para crear entornos inmersivos más atractivos y realistas, mejorando así las experiencias de los usuarios en aplicaciones de VR y AR.
English
The rapid advancement of diffusion models holds the promise of
revolutionizing the application of VR and AR technologies, which typically
require scene-level 4D assets for user experience. Nonetheless, existing
diffusion models predominantly concentrate on modeling static 3D scenes or
object-level dynamics, constraining their capacity to provide truly immersive
experiences. To address this issue, we propose HoloTime, a framework that
integrates video diffusion models to generate panoramic videos from a single
prompt or reference image, along with a 360-degree 4D scene reconstruction
method that seamlessly transforms the generated panoramic video into 4D assets,
enabling a fully immersive 4D experience for users. Specifically, to tame video
diffusion models for generating high-fidelity panoramic videos, we introduce
the 360World dataset, the first comprehensive collection of panoramic videos
suitable for downstream 4D scene reconstruction tasks. With this curated
dataset, we propose Panoramic Animator, a two-stage image-to-video diffusion
model that can convert panoramic images into high-quality panoramic videos.
Following this, we present Panoramic Space-Time Reconstruction, which leverages
a space-time depth estimation method to transform the generated panoramic
videos into 4D point clouds, enabling the optimization of a holistic 4D
Gaussian Splatting representation to reconstruct spatially and temporally
consistent 4D scenes. To validate the efficacy of our method, we conducted a
comparative analysis with existing approaches, revealing its superiority in
both panoramic video generation and 4D scene reconstruction. This demonstrates
our method's capability to create more engaging and realistic immersive
environments, thereby enhancing user experiences in VR and AR applications.Summary
AI-Generated Summary