CVD-STORM : Diffusion vidéo inter-vues avec modèle de reconstruction spatio-temporelle pour la conduite autonome
CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving
October 9, 2025
papers.authors: Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu
cs.AI
papers.abstract
Les modèles génératifs ont été largement appliqués à la modélisation du monde pour la simulation d'environnements et la prédiction d'états futurs. Avec les avancées dans le domaine de la conduite autonome, il existe une demande croissante non seulement pour la génération de vidéos haute fidélité sous divers contrôles, mais aussi pour la production d'informations diversifiées et significatives telles que l'estimation de profondeur. Pour répondre à cela, nous proposons CVD-STORM, un modèle de diffusion vidéo multi-vues utilisant un autoencodeur variationnel (VAE) de reconstruction spatio-temporelle, capable de générer des vidéos à long terme et multi-vues avec des capacités de reconstruction 4D sous diverses entrées de contrôle. Notre approche commence par affiner le VAE avec une tâche de reconstruction 4D auxiliaire, améliorant ainsi sa capacité à encoder les structures 3D et la dynamique temporelle. Ensuite, nous intégrons ce VAE dans le processus de diffusion vidéo pour améliorer significativement la qualité de la génération. Les résultats expérimentaux démontrent que notre modèle obtient des améliorations substantielles dans les métriques FID et FVD. De plus, le décodeur de splatting gaussien entraîné conjointement reconstruit efficacement les scènes dynamiques, fournissant des informations géométriques précieuses pour une compréhension complète de la scène.
English
Generative models have been widely applied to world modeling for environment
simulation and future state prediction. With advancements in autonomous
driving, there is a growing demand not only for high-fidelity video generation
under various controls, but also for producing diverse and meaningful
information such as depth estimation. To address this, we propose CVD-STORM, a
cross-view video diffusion model utilizing a spatial-temporal reconstruction
Variational Autoencoder (VAE) that generates long-term, multi-view videos with
4D reconstruction capabilities under various control inputs. Our approach first
fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its
ability to encode 3D structures and temporal dynamics. Subsequently, we
integrate this VAE into the video diffusion process to significantly improve
generation quality. Experimental results demonstrate that our model achieves
substantial improvements in both FID and FVD metrics. Additionally, the
jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic
scenes, providing valuable geometric information for comprehensive scene
understanding.