GenieDrive: 4次元オクルージョン誘導型ビデオ生成による物理認識ドライビングワールドモデルへのアプローチ
GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation
December 14, 2025
著者: Zhenya Yang, Zhe Liu, Yuxiang Lu, Liping Hou, Chenxuan Miao, Siyi Peng, Bailan Feng, Xiang Bai, Hengshuang Zhao
cs.AI
要旨
物理学を考慮した運転世界モデルは、走行計画、分布外データ合成、閉ループ評価において不可欠である。しかし既存手法では、運転行動から動画への直接変換を単一の拡散モデルに依存する場合が多く、学習が困難で物理的に不整合な出力を生じやすい。これらの課題を克服するため、我々は物理意識的運転動画生成のための新規フレームワークGenieDriveを提案する。本手法はまず4次元占有格子を生成し、これを物理情報を備えた基盤として後段の動画生成に活用する。4次元占有格子は高解像度の3次元構造と動態を含む豊富な物理情報を有する。この高解像度占有格子の効率的な圧縮を実現するため、占有格子を潜在トライプレーン表現に符号化するVAEを提案し、潜在サイズを従来手法比58%に削減した。さらに制御入力が占有格子の時間発展に与える影響を精密にモデル化するMutual Control Attention(MCA)を導入し、VAEと後段の予測モジュールをエンドツーエンドで共同訓練することで予測精度を最大化する。これらの設計により、パラメータ数3.47Mのみで、推論速度41FPSを維持しつつ予測mIoUを7.2%向上させることに成功した。加えて、動画生成モデルにはNormalized Multi-View Attentionを導入し、4次元占有格子の誘導に基づく多視点運転動画を生成することで、FVDを20.7%改善する画質向上を実現した。実験により、GenieDriveが高度に制御可能で多視点整合性があり、物理意識的な運転動画生成を実現することを示す。
English
Physics-aware driving world model is essential for drive planning, out-of-distribution data synthesis, and closed-loop evaluation. However, existing methods often rely on a single diffusion model to directly map driving actions to videos, which makes learning difficult and leads to physically inconsistent outputs. To overcome these challenges, we propose GenieDrive, a novel framework designed for physics-aware driving video generation. Our approach starts by generating 4D occupancy, which serves as a physics-informed foundation for subsequent video generation. 4D occupancy contains rich physical information, including high-resolution 3D structures and dynamics. To facilitate effective compression of such high-resolution occupancy, we propose a VAE that encodes occupancy into a latent tri-plane representation, reducing the latent size to only 58% of that used in previous methods. We further introduce Mutual Control Attention (MCA) to accurately model the influence of control on occupancy evolution, and we jointly train the VAE and the subsequent prediction module in an end-to-end manner to maximize forecasting accuracy. Together, these designs yield a 7.2% improvement in forecasting mIoU at an inference speed of 41 FPS, while using only 3.47 M parameters. Additionally, a Normalized Multi-View Attention is introduced in the video generation model to generate multi-view driving videos with guidance from our 4D occupancy, significantly improving video quality with a 20.7% reduction in FVD. Experiments demonstrate that GenieDrive enables highly controllable, multi-view consistent, and physics-aware driving video generation.