ChatPaper.aiChatPaper

CVD-STORM: Cross-View Video-Diffusion mit räumlich-zeitlichem Rekonstruktionsmodell für autonomes Fahren

CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving

October 9, 2025
papers.authors: Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu
cs.AI

papers.abstract

Generative Modelle wurden weitreichend in der Weltmodellierung für Umgebungssimulationen und zukünftige Zustandsprognosen eingesetzt. Mit den Fortschritten im autonomen Fahren besteht eine wachsende Nachfrage nicht nur nach hochauflösender Videogenerierung unter verschiedenen Steuerungen, sondern auch nach der Erzeugung vielfältiger und aussagekräftiger Informationen wie Tiefenschätzungen. Um dies zu adressieren, schlagen wir CVD-STORM vor, ein Cross-View-Video-Diffusionsmodell, das einen räumlich-zeitlichen Rekonstruktions-Variational Autoencoder (VAE) nutzt, um langfristige, multiview-Videos mit 4D-Rekonstruktionsfähigkeiten unter verschiedenen Steuereingaben zu generieren. Unser Ansatz feintuned zunächst den VAE mit einer zusätzlichen 4D-Rekonstruktionsaufgabe, wodurch dessen Fähigkeit zur Kodierung von 3D-Strukturen und zeitlichen Dynamiken verbessert wird. Anschließend integrieren wir diesen VAE in den Videodiffusionsprozess, um die Generierungsqualität signifikant zu steigern. Experimentelle Ergebnisse zeigen, dass unser Modell erhebliche Verbesserungen in den Metriken FID und FVD erzielt. Zudem rekonstruiert der gemeinsam trainierte Gaussian Splatting Decoder effektiv dynamische Szenen und liefert wertvolle geometrische Informationen für ein umfassendes Szenenverständnis.
English
Generative models have been widely applied to world modeling for environment simulation and future state prediction. With advancements in autonomous driving, there is a growing demand not only for high-fidelity video generation under various controls, but also for producing diverse and meaningful information such as depth estimation. To address this, we propose CVD-STORM, a cross-view video diffusion model utilizing a spatial-temporal reconstruction Variational Autoencoder (VAE) that generates long-term, multi-view videos with 4D reconstruction capabilities under various control inputs. Our approach first fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its ability to encode 3D structures and temporal dynamics. Subsequently, we integrate this VAE into the video diffusion process to significantly improve generation quality. Experimental results demonstrate that our model achieves substantial improvements in both FID and FVD metrics. Additionally, the jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic scenes, providing valuable geometric information for comprehensive scene understanding.
PDF252February 7, 2026