ChatPaper.aiChatPaper

DriveGen3D: Potenciando la Generación de Escenas de Conducción Predictiva con Difusión Eficiente de Video

DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion

October 17, 2025
Autores: Weijie Wang, Jiagang Zhu, Zeyu Zhang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Haoxiao Wang, Guan Huang, Xinze Chen, Yukun Zhou, Wenkang Qin, Duochao Shi, Haoyun Li, Guanghong Jia, Jiwen Lu
cs.AI

Resumen

Presentamos DriveGen3D, un marco novedoso para la generación de escenas dinámicas 3D de conducción de alta calidad y altamente controlables que aborda limitaciones críticas en las metodologías existentes. Los enfoques actuales para la síntesis de escenas de conducción ya sea sufren de demandas computacionales prohibitivas para la generación temporal extendida, se centran exclusivamente en la síntesis de videos prolongados sin representación 3D, o se limitan a la reconstrucción estática de escenas únicas. Nuestro trabajo cierra esta brecha metodológica al integrar la generación acelerada de videos a largo plazo con la reconstrucción de escenas dinámicas a gran escala mediante control condicional multimodal. DriveGen3D introduce una pipeline unificada que consta de dos componentes especializados: FastDrive-DiT, un transformador de difusión de video eficiente para la síntesis de videos de alta resolución y temporalmente coherentes bajo guía de texto y diseño de vista de pájaro (BEV); y FastRecon3D, un módulo de reconstrucción de avance rápido que construye rápidamente representaciones 3D Gaussianas a lo largo del tiempo, garantizando consistencia espacio-temporal. Juntos, estos componentes permiten la generación en tiempo real de videos de conducción extendidos (hasta 424x800 a 12 FPS) y las correspondientes escenas dinámicas 3D, logrando un SSIM de 0.811 y un PSNR de 22.84 en la síntesis de vistas novedosas, todo mientras se mantiene la eficiencia de parámetros.
English
We present DriveGen3D, a novel framework for generating high-quality and highly controllable dynamic 3D driving scenes that addresses critical limitations in existing methodologies. Current approaches to driving scene synthesis either suffer from prohibitive computational demands for extended temporal generation, focus exclusively on prolonged video synthesis without 3D representation, or restrict themselves to static single-scene reconstruction. Our work bridges this methodological gap by integrating accelerated long-term video generation with large-scale dynamic scene reconstruction through multimodal conditional control. DriveGen3D introduces a unified pipeline consisting of two specialized components: FastDrive-DiT, an efficient video diffusion transformer for high-resolution, temporally coherent video synthesis under text and Bird's-Eye-View (BEV) layout guidance; and FastRecon3D, a feed-forward reconstruction module that rapidly builds 3D Gaussian representations across time, ensuring spatial-temporal consistency. Together, these components enable real-time generation of extended driving videos (up to 424times800 at 12 FPS) and corresponding dynamic 3D scenes, achieving SSIM of 0.811 and PSNR of 22.84 on novel view synthesis, all while maintaining parameter efficiency.
PDF12October 20, 2025