CVD-STORM: Cross-View Video Diffusie met Ruimtelijk-Temporeel Reconstructiemodel voor Autonoom Rijden
CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving
October 9, 2025
Auteurs: Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu
cs.AI
Samenvatting
Generatieve modellen zijn veelvuldig toegepast bij wereldmodellering voor omgevingssimulatie en voorspelling van toekomstige toestanden. Met de vooruitgang in autonoom rijden is er een groeiende vraag, niet alleen naar hoogwaardige videogeneratie onder diverse controles, maar ook naar het produceren van diverse en betekenisvolle informatie zoals diepteschatting. Om dit aan te pakken, stellen we CVD-STORM voor, een cross-view videodiffusiemodel dat gebruikmaakt van een ruimtelijk-temporele reconstructie Variational Autoencoder (VAE) die langdurige, multi-view video's genereert met 4D-reconstructiecapaciteiten onder diverse controle-ingangen. Onze aanpak fine-tunt eerst de VAE met een aanvullende 4D-reconstructietaak, waardoor het vermogen om 3D-structuren en temporele dynamiek te coderen wordt verbeterd. Vervolgens integreren we deze VAE in het videodiffusieproces om de generatiekwaliteit aanzienlijk te verbeteren. Experimentele resultaten tonen aan dat ons model aanzienlijke verbeteringen bereikt in zowel FID- als FVD-metrics. Daarnaast reconstrueert de gezamenlijk getrainde Gaussian Splatting Decoder effectief dynamische scènes, wat waardevolle geometrische informatie biedt voor een uitgebreid scènebegrip.
English
Generative models have been widely applied to world modeling for environment
simulation and future state prediction. With advancements in autonomous
driving, there is a growing demand not only for high-fidelity video generation
under various controls, but also for producing diverse and meaningful
information such as depth estimation. To address this, we propose CVD-STORM, a
cross-view video diffusion model utilizing a spatial-temporal reconstruction
Variational Autoencoder (VAE) that generates long-term, multi-view videos with
4D reconstruction capabilities under various control inputs. Our approach first
fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its
ability to encode 3D structures and temporal dynamics. Subsequently, we
integrate this VAE into the video diffusion process to significantly improve
generation quality. Experimental results demonstrate that our model achieves
substantial improvements in both FID and FVD metrics. Additionally, the
jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic
scenes, providing valuable geometric information for comprehensive scene
understanding.