DriveGen3D: 効率的なビデオ拡散によるフィードフォワード運転シーン生成の強化
DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion
October 17, 2025
著者: Weijie Wang, Jiagang Zhu, Zeyu Zhang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Haoxiao Wang, Guan Huang, Xinze Chen, Yukun Zhou, Wenkang Qin, Duochao Shi, Haoyun Li, Guanghong Jia, Jiwen Lu
cs.AI
要旨
本論文では、既存手法の重要な制約を解決する高品質かつ高度に制御可能な動的3D運転シーン生成のための新規フレームワーク、DriveGen3Dを提案する。現在の運転シーン合成手法は、長時間の時間的生成における計算負荷が過大であるか、3D表現を伴わない長時間ビデオ合成に限定されているか、あるいは静的な単一シーン再構成に制限されている。本研究は、マルチモーダル条件制御を通じて、加速された長期ビデオ生成と大規模動的シーン再構成を統合することで、この方法論的ギャップを埋める。DriveGen3Dは、2つの専門コンポーネントからなる統一パイプラインを導入する:FastDrive-DiTは、テキストおよび鳥瞰図(BEV)レイアウトのガイダンス下で高解像度かつ時間的に一貫したビデオ合成を行う効率的なビデオ拡散トランスフォーマーであり、FastRecon3Dは、時間を跨いで3Dガウス表現を迅速に構築するフィードフォワード再構成モジュールで、空間的・時間的一貫性を保証する。これらのコンポーネントを組み合わせることで、拡張された運転ビデオ(最大424×800、12 FPS)および対応する動的3Dシーンのリアルタイム生成を実現し、新規視点合成においてSSIM 0.811、PSNR 22.84を達成しつつ、パラメータ効率を維持する。
English
We present DriveGen3D, a novel framework for generating high-quality and
highly controllable dynamic 3D driving scenes that addresses critical
limitations in existing methodologies. Current approaches to driving scene
synthesis either suffer from prohibitive computational demands for extended
temporal generation, focus exclusively on prolonged video synthesis without 3D
representation, or restrict themselves to static single-scene reconstruction.
Our work bridges this methodological gap by integrating accelerated long-term
video generation with large-scale dynamic scene reconstruction through
multimodal conditional control. DriveGen3D introduces a unified pipeline
consisting of two specialized components: FastDrive-DiT, an efficient video
diffusion transformer for high-resolution, temporally coherent video synthesis
under text and Bird's-Eye-View (BEV) layout guidance; and FastRecon3D, a
feed-forward reconstruction module that rapidly builds 3D Gaussian
representations across time, ensuring spatial-temporal consistency. Together,
these components enable real-time generation of extended driving videos (up to
424times800 at 12 FPS) and corresponding dynamic 3D scenes, achieving SSIM
of 0.811 and PSNR of 22.84 on novel view synthesis, all while maintaining
parameter efficiency.