CVD-STORM: Difusión de Video con Reconstrucción Espacio-Temporal para la Conducción Autónoma
CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving
October 9, 2025
Autores: Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu
cs.AI
Resumen
Los modelos generativos han sido ampliamente aplicados en la modelización del mundo para la simulación de entornos y la predicción de estados futuros. Con los avances en la conducción autónoma, existe una creciente demanda no solo de la generación de videos de alta fidelidad bajo diversos controles, sino también de la producción de información diversa y significativa, como la estimación de profundidad. Para abordar esto, proponemos CVD-STORM, un modelo de difusión de video de vista cruzada que utiliza un Variational Autoencoder (VAE) de reconstrucción espacio-temporal, capaz de generar videos a largo plazo y de múltiples vistas con capacidades de reconstrucción 4D bajo diversas entradas de control. Nuestro enfoque primero ajusta el VAE con una tarea auxiliar de reconstrucción 4D, mejorando su capacidad para codificar estructuras 3D y dinámicas temporales. Posteriormente, integramos este VAE en el proceso de difusión de video para mejorar significativamente la calidad de la generación. Los resultados experimentales demuestran que nuestro modelo logra mejoras sustanciales tanto en las métricas FID como FVD. Además, el Decodificador de Splatting Gaussiano entrenado conjuntamente reconstruye eficazmente escenas dinámicas, proporcionando información geométrica valiosa para una comprensión integral de la escena.
English
Generative models have been widely applied to world modeling for environment
simulation and future state prediction. With advancements in autonomous
driving, there is a growing demand not only for high-fidelity video generation
under various controls, but also for producing diverse and meaningful
information such as depth estimation. To address this, we propose CVD-STORM, a
cross-view video diffusion model utilizing a spatial-temporal reconstruction
Variational Autoencoder (VAE) that generates long-term, multi-view videos with
4D reconstruction capabilities under various control inputs. Our approach first
fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its
ability to encode 3D structures and temporal dynamics. Subsequently, we
integrate this VAE into the video diffusion process to significantly improve
generation quality. Experimental results demonstrate that our model achieves
substantial improvements in both FID and FVD metrics. Additionally, the
jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic
scenes, providing valuable geometric information for comprehensive scene
understanding.