GenieDrive: 4D 점유율 기반 비디오 생성으로 구현하는 물리 인식 주행 세계 모델
GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation
December 14, 2025
저자: Zhenya Yang, Zhe Liu, Yuxiang Lu, Liping Hou, Chenxuan Miao, Siyi Peng, Bailan Feng, Xiang Bai, Hengshuang Zhao
cs.AI
초록
물리 인식 주행 세계 모델은 주행 계획, 분포 외 데이터 합성 및 폐루프 평가에 필수적입니다. 그러나 기존 방법들은 단일 확산 모델을 사용하여 주행 동작을 비디오로 직접 매핑하는 경우가 많아 학습이 어렵고 물리적으로 일관성 없는 결과를 초래합니다. 이러한 문제를 해결하기 위해 우리는 물리 인식 주행 비디오 생성을 위해 설계된 새로운 프레임워크인 GenieDrive를 제안합니다. 우리의 접근 방식은 후속 비디오 생성을 위한 물리 정보 기반으로 기능하는 4D 점유율을 생성하는 것에서 시작합니다. 4D 점유율은 고해상도 3D 구조와 동역학을 포함한 풍부한 물리 정보를 담고 있습니다. 이러한 고해상도 점유율의 효과적인 압축을 위해 우리는 점유율을 잠재 삼각 평면 표현으로 인코딩하는 VAE를 제안하여 잠재 크기를 기존 방법 대비 58%로 줄였습니다. 또한 제어가 점유율 변화에 미치는 영향을 정확하게 모델링하기 위해 상호 제어 주의(MCA)를 도입하고, 예측 정확도를 극대화하기 위해 VAE와 후속 예측 모듈을 종단 간 방식으로 공동 학습합니다. 이러한 설계를 통해 41 FPS의 추론 속도에서 예측 mIoU가 7.2% 향상되었으며, 매개변수는 3.47 M만 사용합니다. 추가적으로 비디오 생성 모델에는 정규화 다중 뷰 주의를 도입하여 우리의 4D 점유율의 guidance를 통해 다중 뷰 주행 비디오를 생성하며, FVD 20.7% 감소로 비디오 품질을 크게 개선했습니다. 실험 결과, GenieDrive가 높은 제어성, 다중 뷰 일관성 및 물리 인식 주행 비디오 생성을 가능하게 함을 입증했습니다.
English
Physics-aware driving world model is essential for drive planning, out-of-distribution data synthesis, and closed-loop evaluation. However, existing methods often rely on a single diffusion model to directly map driving actions to videos, which makes learning difficult and leads to physically inconsistent outputs. To overcome these challenges, we propose GenieDrive, a novel framework designed for physics-aware driving video generation. Our approach starts by generating 4D occupancy, which serves as a physics-informed foundation for subsequent video generation. 4D occupancy contains rich physical information, including high-resolution 3D structures and dynamics. To facilitate effective compression of such high-resolution occupancy, we propose a VAE that encodes occupancy into a latent tri-plane representation, reducing the latent size to only 58% of that used in previous methods. We further introduce Mutual Control Attention (MCA) to accurately model the influence of control on occupancy evolution, and we jointly train the VAE and the subsequent prediction module in an end-to-end manner to maximize forecasting accuracy. Together, these designs yield a 7.2% improvement in forecasting mIoU at an inference speed of 41 FPS, while using only 3.47 M parameters. Additionally, a Normalized Multi-View Attention is introduced in the video generation model to generate multi-view driving videos with guidance from our 4D occupancy, significantly improving video quality with a 20.7% reduction in FVD. Experiments demonstrate that GenieDrive enables highly controllable, multi-view consistent, and physics-aware driving video generation.