DriveGen3D: Potenziare la Generazione di Scene di Guida in Modalità Feed-Forward con Diffusione Video Efficiente
DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion
October 17, 2025
Autori: Weijie Wang, Jiagang Zhu, Zeyu Zhang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Haoxiao Wang, Guan Huang, Xinze Chen, Yukun Zhou, Wenkang Qin, Duochao Shi, Haoyun Li, Guanghong Jia, Jiwen Lu
cs.AI
Abstract
Presentiamo DriveGen3D, un framework innovativo per la generazione di scene di guida dinamiche 3D di alta qualità e altamente controllabili, che affronta le limitazioni critiche delle metodologie esistenti. Gli approcci attuali alla sintesi di scene di guida soffrono di richieste computazionali proibitive per la generazione temporale estesa, si concentrano esclusivamente sulla sintesi video prolungata senza rappresentazione 3D o si limitano alla ricostruzione statica di singole scene. Il nostro lavoro colma questo divario metodologico integrando la generazione video a lungo termine accelerata con la ricostruzione di scene dinamiche su larga scala attraverso il controllo condizionale multimodale. DriveGen3D introduce una pipeline unificata composta da due componenti specializzati: FastDrive-DiT, un efficiente video diffusion transformer per la sintesi video ad alta risoluzione e temporalmente coerente sotto la guida di testo e layout Bird's-Eye-View (BEV); e FastRecon3D, un modulo di ricostruzione feed-forward che costruisce rapidamente rappresentazioni 3D Gaussiane nel tempo, garantendo coerenza spazio-temporale. Insieme, questi componenti consentono la generazione in tempo reale di video di guida estesi (fino a 424x800 a 12 FPS) e delle corrispondenti scene 3D dinamiche, raggiungendo un SSIM di 0.811 e un PSNR di 22.84 nella sintesi di nuove viste, tutto mantenendo l'efficienza dei parametri.
English
We present DriveGen3D, a novel framework for generating high-quality and
highly controllable dynamic 3D driving scenes that addresses critical
limitations in existing methodologies. Current approaches to driving scene
synthesis either suffer from prohibitive computational demands for extended
temporal generation, focus exclusively on prolonged video synthesis without 3D
representation, or restrict themselves to static single-scene reconstruction.
Our work bridges this methodological gap by integrating accelerated long-term
video generation with large-scale dynamic scene reconstruction through
multimodal conditional control. DriveGen3D introduces a unified pipeline
consisting of two specialized components: FastDrive-DiT, an efficient video
diffusion transformer for high-resolution, temporally coherent video synthesis
under text and Bird's-Eye-View (BEV) layout guidance; and FastRecon3D, a
feed-forward reconstruction module that rapidly builds 3D Gaussian
representations across time, ensuring spatial-temporal consistency. Together,
these components enable real-time generation of extended driving videos (up to
424times800 at 12 FPS) and corresponding dynamic 3D scenes, achieving SSIM
of 0.811 and PSNR of 22.84 on novel view synthesis, all while maintaining
parameter efficiency.