ChatPaper.aiChatPaper

CVD-STORM:自動運転のための空間-時間再構成モデルを用いたクロスビュー動画拡散

CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving

October 9, 2025
著者: Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu
cs.AI

要旨

生成モデルは、環境シミュレーションや未来状態予測のための世界モデリングに広く応用されてきました。自動運転技術の進展に伴い、様々な制御下での高精細なビデオ生成だけでなく、深度推定などの多様で有意義な情報を生成する需要が高まっています。これに対応するため、我々はCVD-STORMを提案します。これは、空間的・時間的再構成を可能とする変分オートエンコーダ(VAE)を活用したクロスビュービデオ拡散モデルであり、様々な制御入力下で長期的なマルチビュービデオを4D再構成能力を持って生成します。我々のアプローチでは、まずVAEを補助的な4D再構成タスクでファインチューニングし、3D構造と時間的ダイナミクスをエンコードする能力を強化します。その後、このVAEをビデオ拡散プロセスに統合し、生成品質を大幅に向上させます。実験結果は、我々のモデルがFIDおよびFVDメトリクスの両方で大幅な改善を達成することを示しています。さらに、共同訓練されたガウススプラッティングデコーダは、動的なシーンを効果的に再構成し、包括的なシーン理解のための貴重な幾何学的情報を提供します。
English
Generative models have been widely applied to world modeling for environment simulation and future state prediction. With advancements in autonomous driving, there is a growing demand not only for high-fidelity video generation under various controls, but also for producing diverse and meaningful information such as depth estimation. To address this, we propose CVD-STORM, a cross-view video diffusion model utilizing a spatial-temporal reconstruction Variational Autoencoder (VAE) that generates long-term, multi-view videos with 4D reconstruction capabilities under various control inputs. Our approach first fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its ability to encode 3D structures and temporal dynamics. Subsequently, we integrate this VAE into the video diffusion process to significantly improve generation quality. Experimental results demonstrate that our model achieves substantial improvements in both FID and FVD metrics. Additionally, the jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic scenes, providing valuable geometric information for comprehensive scene understanding.
PDF252February 7, 2026