ChatPaper.aiChatPaper

CVD-STORM: 자율주행을 위한 시공간 재구성 모델을 활용한 교차 뷰 비디오 확산

CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving

October 9, 2025
저자: Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu
cs.AI

초록

생성 모델은 환경 시뮬레이션 및 미래 상태 예측을 위한 세계 모델링에 널리 적용되어 왔다. 자율 주행 기술의 발전과 함께, 다양한 제어 하에서 고해상도 비디오 생성뿐만 아니라 깊이 추정과 같은 다양하고 의미 있는 정보를 생성하는 데 대한 요구가 증가하고 있다. 이를 해결하기 위해, 우리는 다양한 제어 입력 하에서 4D 재구성 능력을 갖춘 장기적 다중 시점 비디오를 생성하는 공간-시간 재구성 변분 오토인코더(VAE)를 활용한 교차 시점 비디오 확산 모델인 CVD-STORM을 제안한다. 우리의 접근 방식은 먼저 보조 4D 재구성 작업으로 VAE를 미세 조정하여 3D 구조와 시간적 동역학을 인코딩하는 능력을 향상시킨다. 이후, 이 VAE를 비디오 확산 과정에 통합하여 생성 품질을 크게 개선한다. 실험 결과는 우리의 모델이 FID 및 FVD 지표에서 상당한 개선을 달성함을 보여준다. 또한, 공동으로 학습된 가우시안 스플래팅 디코더는 동적 장면을 효과적으로 재구성하여 포괄적인 장면 이해를 위한 유용한 기하학적 정보를 제공한다.
English
Generative models have been widely applied to world modeling for environment simulation and future state prediction. With advancements in autonomous driving, there is a growing demand not only for high-fidelity video generation under various controls, but also for producing diverse and meaningful information such as depth estimation. To address this, we propose CVD-STORM, a cross-view video diffusion model utilizing a spatial-temporal reconstruction Variational Autoencoder (VAE) that generates long-term, multi-view videos with 4D reconstruction capabilities under various control inputs. Our approach first fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its ability to encode 3D structures and temporal dynamics. Subsequently, we integrate this VAE into the video diffusion process to significantly improve generation quality. Experimental results demonstrate that our model achieves substantial improvements in both FID and FVD metrics. Additionally, the jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic scenes, providing valuable geometric information for comprehensive scene understanding.
PDF252February 7, 2026