ChatPaper.aiChatPaper

DrivePI: Ruimtelijk bewuste 4D MLLM voor geïntegreerd autonoom rijden - Begrip, Waarneming, Voorspelling en Planning

DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning

December 14, 2025
Auteurs: Zhe Liu, Runhui Huang, Rui Yang, Siming Yan, Zining Wang, Lu Hou, Di Lin, Xiang Bai, Hengshuang Zhao
cs.AI

Samenvatting

Hoewel multimodale grote taalmodellen (MLLM's) sterke capaciteiten hebben getoond in diverse domeinen, blijft hun toepassing voor het genereren van fijnmazige 3D-perceptie- en voorspellingsuitvoer in autonoom rijden onderbelicht. In dit artikel stellen we DrivePI voor, een nieuw ruimtelijk bewuste 4D MLLM dat fungeert als een uniform Vision-Language-Action (VLA) raamwerk dat ook compatibel is met vision-action (VA) modellen. Onze methode voert gelijktijdig ruimtelijk begrip, 3D-perceptie (d.w.z. 3D-occupancy), voorspelling (d.w.z. occupancy flow) en planning (d.w.z. actie-uitvoer) uit via end-to-end optimalisatie. Om zowel precieze geometrische informatie als rijke visuele weergave te verkrijgen, integreert onze aanpak puntenwolken, multi-view beelden en taal-instructies binnen een uniforme MLLM-architectuur. We ontwikkelen verder een data-engine om tekst-occupancy en tekst-flow vraag-antwoordparen te genereren voor 4D ruimtelijk begrip. Opmerkelijk is dat DrivePI, met slechts een 0.5B Qwen2.5-model als MLLM-backbone, als één enkel uniform model presteert op het niveau van of beter is dan zowel bestaande VLA-modellen als gespecialiseerde VA-modellen. Specifiek presteert DrivePI, vergeleken met VLA-modellen, 2.5% beter in gemiddelde nauwkeurigheid op nuScenes-QA dan OpenDriveVLA-7B en reduceert het de botsingsratio met 70% ten opzichte van ORION (van 0.37% naar 0.11%) op nuScenes. Ten opzichte van gespecialiseerde VA-modellen overtreft DrivePI FB-OCC met 10.3 RayIoU voor 3D-occupancy op OpenOcc, reduceert het de mAVE van 0.591 naar 0.509 voor occupancy flow op OpenOcc, en behaalt het 32% lagere L2-fout dan VAD (van 0.72m naar 0.49m) voor planning op nuScenes. Code zal beschikbaar zijn op https://github.com/happinesslz/DrivePI.
English
Although multi-modal large language models (MLLMs) have shown strong capabilities across diverse domains, their application in generating fine-grained 3D perception and prediction outputs in autonomous driving remains underexplored. In this paper, we propose DrivePI, a novel spatial-aware 4D MLLM that serves as a unified Vision-Language-Action (VLA) framework that is also compatible with vision-action (VA) models. Our method jointly performs spatial understanding, 3D perception (i.e., 3D occupancy), prediction (i.e., occupancy flow), and planning (i.e., action outputs) in parallel through end-to-end optimization. To obtain both precise geometric information and rich visual appearance, our approach integrates point clouds, multi-view images, and language instructions within a unified MLLM architecture. We further develop a data engine to generate text-occupancy and text-flow QA pairs for 4D spatial understanding. Remarkably, with only a 0.5B Qwen2.5 model as MLLM backbone, DrivePI as a single unified model matches or exceeds both existing VLA models and specialized VA models. Specifically, compared to VLA models, DrivePI outperforms OpenDriveVLA-7B by 2.5% mean accuracy on nuScenes-QA and reduces collision rate by 70% over ORION (from 0.37% to 0.11%) on nuScenes. Against specialized VA models, DrivePI surpasses FB-OCC by 10.3 RayIoU for 3D occupancy on OpenOcc, reduces the mAVE from 0.591 to 0.509 for occupancy flow on OpenOcc, and achieves 32% lower L2 error than VAD (from 0.72m to 0.49m) for planning on nuScenes. Code will be available at https://github.com/happinesslz/DrivePI
PDF102December 22, 2025