DriveGen3D: 효율적인 비디오 확산을 통한 순방향 주행 장면 생성 강화
DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion
October 17, 2025
저자: Weijie Wang, Jiagang Zhu, Zeyu Zhang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Haoxiao Wang, Guan Huang, Xinze Chen, Yukun Zhou, Wenkang Qin, Duochao Shi, Haoyun Li, Guanghong Jia, Jiwen Lu
cs.AI
초록
우리는 기존 방법론의 중요한 한계를 해결하는 고품질 및 고도로 제어 가능한 동적 3D 운전 장면 생성 프레임워크인 DriveGen3D를 제안한다. 현재의 운전 장면 합성 접근법은 장기간의 시간적 생성을 위한 과도한 계산 요구로 인해 어려움을 겪거나, 3D 표현 없이 오로지 장기간 비디오 합성에만 초점을 맞추거나, 정적 단일 장면 재구성에만 제한되어 있다. 우리의 연구는 다중 모달 조건 제어를 통해 가속화된 장기간 비디오 생성과 대규모 동적 장면 재구성을 통합함으로써 이러한 방법론적 격차를 메운다. DriveGen3D는 두 가지 전문화된 구성 요소로 이루어진 통합 파이프라인을 도입한다: FastDrive-DiT는 텍스트 및 조감도(BEV) 레이아웃 지도 하에서 고해상도 및 시간적 일관성을 가진 비디오 합성을 위한 효율적인 비디오 확산 트랜스포머이며, FastRecon3D는 시간에 걸쳐 3D 가우시안 표현을 신속하게 구축하여 공간-시간적 일관성을 보장하는 피드포워드 재구성 모듈이다. 이 두 구성 요소는 함께 확장된 운전 비디오(최대 424x800, 12 FPS) 및 해당 동적 3D 장면의 실시간 생성을 가능하게 하며, 새로운 시점 합성에서 SSIM 0.811 및 PSNR 22.84를 달성하면서도 파라미터 효율성을 유지한다.
English
We present DriveGen3D, a novel framework for generating high-quality and
highly controllable dynamic 3D driving scenes that addresses critical
limitations in existing methodologies. Current approaches to driving scene
synthesis either suffer from prohibitive computational demands for extended
temporal generation, focus exclusively on prolonged video synthesis without 3D
representation, or restrict themselves to static single-scene reconstruction.
Our work bridges this methodological gap by integrating accelerated long-term
video generation with large-scale dynamic scene reconstruction through
multimodal conditional control. DriveGen3D introduces a unified pipeline
consisting of two specialized components: FastDrive-DiT, an efficient video
diffusion transformer for high-resolution, temporally coherent video synthesis
under text and Bird's-Eye-View (BEV) layout guidance; and FastRecon3D, a
feed-forward reconstruction module that rapidly builds 3D Gaussian
representations across time, ensuring spatial-temporal consistency. Together,
these components enable real-time generation of extended driving videos (up to
424times800 at 12 FPS) and corresponding dynamic 3D scenes, achieving SSIM
of 0.811 and PSNR of 22.84 on novel view synthesis, all while maintaining
parameter efficiency.