CVD-STORM: Difusão de Vídeo com Visão Cruzada e Modelo de Reconstrução Espaço-Temporal para Condução Autônoma
CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving
October 9, 2025
Autores: Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu
cs.AI
Resumo
Modelos generativos têm sido amplamente aplicados à modelagem de mundos para simulação de ambientes e previsão de estados futuros. Com os avanços na condução autônoma, há uma demanda crescente não apenas pela geração de vídeos de alta fidelidade sob vários controles, mas também pela produção de informações diversas e significativas, como estimativa de profundidade. Para abordar isso, propomos o CVD-STORM, um modelo de difusão de vídeo de visão cruzada que utiliza um Variational Autoencoder (VAE) de reconstrução espaço-temporal, capaz de gerar vídeos de longo prazo e múltiplas visões com capacidades de reconstrução 4D sob várias entradas de controle. Nossa abordagem primeiro ajusta o VAE com uma tarefa auxiliar de reconstrução 4D, aprimorando sua capacidade de codificar estruturas 3D e dinâmicas temporais. Posteriormente, integramos esse VAE ao processo de difusão de vídeo para melhorar significativamente a qualidade da geração. Resultados experimentais demonstram que nosso modelo alcança melhorias substanciais tanto nas métricas FID quanto FVD. Além disso, o Decodificador de Splatting Gaussiano treinado em conjunto reconstrói efetivamente cenas dinâmicas, fornecendo informações geométricas valiosas para uma compreensão abrangente da cena.
English
Generative models have been widely applied to world modeling for environment
simulation and future state prediction. With advancements in autonomous
driving, there is a growing demand not only for high-fidelity video generation
under various controls, but also for producing diverse and meaningful
information such as depth estimation. To address this, we propose CVD-STORM, a
cross-view video diffusion model utilizing a spatial-temporal reconstruction
Variational Autoencoder (VAE) that generates long-term, multi-view videos with
4D reconstruction capabilities under various control inputs. Our approach first
fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its
ability to encode 3D structures and temporal dynamics. Subsequently, we
integrate this VAE into the video diffusion process to significantly improve
generation quality. Experimental results demonstrate that our model achieves
substantial improvements in both FID and FVD metrics. Additionally, the
jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic
scenes, providing valuable geometric information for comprehensive scene
understanding.