CVD-STORM: Модель кросс-видео диффузии с пространственно-временной реконструкцией для автономного вождения
CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving
October 9, 2025
Авторы: Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu
cs.AI
Аннотация
Генеративные модели широко применяются для моделирования окружающей среды в целях симуляции и прогнозирования будущих состояний. С развитием автономного вождения растет спрос не только на создание высококачественных видео под различными управляющими воздействиями, но и на генерацию разнообразной и значимой информации, такой как оценка глубины. Для решения этой задачи мы предлагаем CVD-STORM — кросс-вьюшную видео-диффузионную модель, использующую пространственно-временной реконструкционный вариационный автоэнкодер (VAE), которая генерирует долгосрочные многовидовые видео с возможностью 4D-реконструкции при различных управляющих воздействиях. Наш подход сначала донастраивает VAE с помощью вспомогательной задачи 4D-реконструкции, улучшая его способность кодировать 3D-структуры и временную динамику. Затем мы интегрируем этот VAE в процесс видео-диффузии, что значительно повышает качество генерации. Экспериментальные результаты показывают, что наша модель достигает существенного улучшения по метрикам FID и FVD. Кроме того, совместно обученный декодер на основе гауссовского сплайнинга эффективно реконструирует динамические сцены, предоставляя ценную геометрическую информацию для всестороннего понимания сцены.
English
Generative models have been widely applied to world modeling for environment
simulation and future state prediction. With advancements in autonomous
driving, there is a growing demand not only for high-fidelity video generation
under various controls, but also for producing diverse and meaningful
information such as depth estimation. To address this, we propose CVD-STORM, a
cross-view video diffusion model utilizing a spatial-temporal reconstruction
Variational Autoencoder (VAE) that generates long-term, multi-view videos with
4D reconstruction capabilities under various control inputs. Our approach first
fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its
ability to encode 3D structures and temporal dynamics. Subsequently, we
integrate this VAE into the video diffusion process to significantly improve
generation quality. Experimental results demonstrate that our model achieves
substantial improvements in both FID and FVD metrics. Additionally, the
jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic
scenes, providing valuable geometric information for comprehensive scene
understanding.