CVD-STORM: Diffusione Video Cross-View con Modello di Ricostruzione Spazio-Temporale per la Guida Autonoma
CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving
October 9, 2025
Autori: Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu
cs.AI
Abstract
I modelli generativi sono stati ampiamente applicati nella modellazione del mondo per la simulazione di ambienti e la previsione di stati futuri. Con i progressi nella guida autonoma, cresce la domanda non solo per la generazione di video ad alta fedeltà sotto vari controlli, ma anche per la produzione di informazioni diversificate e significative come la stima della profondità. Per affrontare questa sfida, proponiamo CVD-STORM, un modello di diffusione video cross-view che utilizza un Variational Autoencoder (VAE) di ricostruzione spazio-temporale, in grado di generare video multi-view a lungo termine con capacità di ricostruzione 4D sotto vari input di controllo. Il nostro approccio prevede prima un fine-tuning del VAE con un'attività ausiliaria di ricostruzione 4D, migliorando la sua capacità di codificare strutture 3D e dinamiche temporali. Successivamente, integriamo questo VAE nel processo di diffusione video per migliorare significativamente la qualità della generazione. I risultati sperimentali dimostrano che il nostro modello raggiunge miglioramenti sostanziali sia nelle metriche FID che FVD. Inoltre, il Gaussian Splatting Decoder addestrato congiuntamente ricostruisce efficacemente scene dinamiche, fornendo preziose informazioni geometriche per una comprensione completa della scena.
English
Generative models have been widely applied to world modeling for environment
simulation and future state prediction. With advancements in autonomous
driving, there is a growing demand not only for high-fidelity video generation
under various controls, but also for producing diverse and meaningful
information such as depth estimation. To address this, we propose CVD-STORM, a
cross-view video diffusion model utilizing a spatial-temporal reconstruction
Variational Autoencoder (VAE) that generates long-term, multi-view videos with
4D reconstruction capabilities under various control inputs. Our approach first
fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its
ability to encode 3D structures and temporal dynamics. Subsequently, we
integrate this VAE into the video diffusion process to significantly improve
generation quality. Experimental results demonstrate that our model achieves
substantial improvements in both FID and FVD metrics. Additionally, the
jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic
scenes, providing valuable geometric information for comprehensive scene
understanding.