CVD-STORM: Cross-View Video Diffusie met Ruimtelijk-Temporeel Reconstructiemodel voor Autonoom Rijden

Samenvatting

Generatieve modellen zijn veelvuldig toegepast bij wereldmodellering voor omgevingssimulatie en voorspelling van toekomstige toestanden. Met de vooruitgang in autonoom rijden is er een groeiende vraag, niet alleen naar hoogwaardige videogeneratie onder diverse controles, maar ook naar het produceren van diverse en betekenisvolle informatie zoals diepteschatting. Om dit aan te pakken, stellen we CVD-STORM voor, een cross-view videodiffusiemodel dat gebruikmaakt van een ruimtelijk-temporele reconstructie Variational Autoencoder (VAE) die langdurige, multi-view video's genereert met 4D-reconstructiecapaciteiten onder diverse controle-ingangen. Onze aanpak fine-tunt eerst de VAE met een aanvullende 4D-reconstructietaak, waardoor het vermogen om 3D-structuren en temporele dynamiek te coderen wordt verbeterd. Vervolgens integreren we deze VAE in het videodiffusieproces om de generatiekwaliteit aanzienlijk te verbeteren. Experimentele resultaten tonen aan dat ons model aanzienlijke verbeteringen bereikt in zowel FID- als FVD-metrics. Daarnaast reconstrueert de gezamenlijk getrainde Gaussian Splatting Decoder effectief dynamische scènes, wat waardevolle geometrische informatie biedt voor een uitgebreid scènebegrip.

English

Generative models have been widely applied to world modeling for environment simulation and future state prediction. With advancements in autonomous driving, there is a growing demand not only for high-fidelity video generation under various controls, but also for producing diverse and meaningful information such as depth estimation. To address this, we propose CVD-STORM, a cross-view video diffusion model utilizing a spatial-temporal reconstruction Variational Autoencoder (VAE) that generates long-term, multi-view videos with 4D reconstruction capabilities under various control inputs. Our approach first fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its ability to encode 3D structures and temporal dynamics. Subsequently, we integrate this VAE into the video diffusion process to significantly improve generation quality. Experimental results demonstrate that our model achieves substantial improvements in both FID and FVD metrics. Additionally, the jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic scenes, providing valuable geometric information for comprehensive scene understanding.

CVD-STORM: Cross-View Video Diffusie met Ruimtelijk-Temporeel Reconstructiemodel voor Autonoom Rijden

CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving

Samenvatting

Support