CVD-STORM: Difusión de Video con Reconstrucción Espacio-Temporal para la Conducción Autónoma

Resumen

Los modelos generativos han sido ampliamente aplicados en la modelización del mundo para la simulación de entornos y la predicción de estados futuros. Con los avances en la conducción autónoma, existe una creciente demanda no solo de la generación de videos de alta fidelidad bajo diversos controles, sino también de la producción de información diversa y significativa, como la estimación de profundidad. Para abordar esto, proponemos CVD-STORM, un modelo de difusión de video de vista cruzada que utiliza un Variational Autoencoder (VAE) de reconstrucción espacio-temporal, capaz de generar videos a largo plazo y de múltiples vistas con capacidades de reconstrucción 4D bajo diversas entradas de control. Nuestro enfoque primero ajusta el VAE con una tarea auxiliar de reconstrucción 4D, mejorando su capacidad para codificar estructuras 3D y dinámicas temporales. Posteriormente, integramos este VAE en el proceso de difusión de video para mejorar significativamente la calidad de la generación. Los resultados experimentales demuestran que nuestro modelo logra mejoras sustanciales tanto en las métricas FID como FVD. Además, el Decodificador de Splatting Gaussiano entrenado conjuntamente reconstruye eficazmente escenas dinámicas, proporcionando información geométrica valiosa para una comprensión integral de la escena.

English

Generative models have been widely applied to world modeling for environment simulation and future state prediction. With advancements in autonomous driving, there is a growing demand not only for high-fidelity video generation under various controls, but also for producing diverse and meaningful information such as depth estimation. To address this, we propose CVD-STORM, a cross-view video diffusion model utilizing a spatial-temporal reconstruction Variational Autoencoder (VAE) that generates long-term, multi-view videos with 4D reconstruction capabilities under various control inputs. Our approach first fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its ability to encode 3D structures and temporal dynamics. Subsequently, we integrate this VAE into the video diffusion process to significantly improve generation quality. Experimental results demonstrate that our model achieves substantial improvements in both FID and FVD metrics. Additionally, the jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic scenes, providing valuable geometric information for comprehensive scene understanding.

CVD-STORM: Difusión de Video con Reconstrucción Espacio-Temporal para la Conducción Autónoma

CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving

Resumen

Support