ChatPaper.aiChatPaper

DrivePI: Räumlich bewusster 4D-MLLM für einheitliches autonomes Fahrverständnis, Wahrnehmung, Vorhersage und Planung

DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning

December 14, 2025
papers.authors: Zhe Liu, Runhui Huang, Rui Yang, Siming Yan, Zining Wang, Lu Hou, Di Lin, Xiang Bai, Hengshuang Zhao
cs.AI

papers.abstract

Obwohl multimodale große Sprachmodelle (MLLMs) starke Fähigkeiten in verschiedenen Domänen gezeigt haben, ist ihre Anwendung zur Erzeugung feingranularer 3D-Wahrnehmungs- und Vorhersageausgaben im autonomen Fahren noch wenig erforscht. In diesem Artikel stellen wir DrivePI vor, ein neuartiges raumbewusstes 4D-MLLM, das als einheitliches Vision-Language-Action (VLA) Framework dient und auch mit Vision-Action (VA) Modellen kompatibel ist. Unsere Methode führt räumliches Verständnis, 3D-Wahrnehmung (d.h. 3D-Occupancy), Vorhersage (d.h. Occupancy Flow) und Planung (d.h. Aktionsausgaben) parallel durch End-to-End-Optimierung durch. Um sowohl präzise geometrische Informationen als auch reiche visuelle Erscheinung zu erhalten, integriert unser Ansatz Punktwolken, Multi-View-Bilder und Sprachinstruktionen innerhalb einer einheitlichen MLLM-Architektur. Wir entwickeln weiterhin eine Data Engine, um Text-Occupancy- und Text-Flow-Frage-Antwort-Paare für 4D-räumliches Verständnis zu generieren. Bemerkenswerterweise übertrifft oder erreicht DrivePI als ein einzelnes einheitliches Modell mit nur einem 0,5B Qwen2.5-Modell als MLLM-Backbone sowohl bestehende VLA-Modelle als auch spezialisierte VA-Modelle. Konkret übertrifft DrivePI im Vergleich zu VLA-Modellen OpenDriveVLA-7B um 2,5 % mittlere Genauigkeit auf nuScenes-QA und reduziert die Kollisionsrate um 70 % gegenüber ORION (von 0,37 % auf 0,11 %) auf nuScenes. Im Vergleich zu spezialisierten VA-Modellen übertrifft DrivePI FB-OCC um 10,3 RayIoU für 3D-Occupancy auf OpenOcc, reduziert den mAVE von 0,591 auf 0,509 für Occupancy Flow auf OpenOcc und erzielt einen 32 % geringeren L2-Fehler als VAD (von 0,72 m auf 0,49 m) für die Planung auf nuScenes. Code wird verfügbar sein unter https://github.com/happinesslz/DrivePI.
English
Although multi-modal large language models (MLLMs) have shown strong capabilities across diverse domains, their application in generating fine-grained 3D perception and prediction outputs in autonomous driving remains underexplored. In this paper, we propose DrivePI, a novel spatial-aware 4D MLLM that serves as a unified Vision-Language-Action (VLA) framework that is also compatible with vision-action (VA) models. Our method jointly performs spatial understanding, 3D perception (i.e., 3D occupancy), prediction (i.e., occupancy flow), and planning (i.e., action outputs) in parallel through end-to-end optimization. To obtain both precise geometric information and rich visual appearance, our approach integrates point clouds, multi-view images, and language instructions within a unified MLLM architecture. We further develop a data engine to generate text-occupancy and text-flow QA pairs for 4D spatial understanding. Remarkably, with only a 0.5B Qwen2.5 model as MLLM backbone, DrivePI as a single unified model matches or exceeds both existing VLA models and specialized VA models. Specifically, compared to VLA models, DrivePI outperforms OpenDriveVLA-7B by 2.5% mean accuracy on nuScenes-QA and reduces collision rate by 70% over ORION (from 0.37% to 0.11%) on nuScenes. Against specialized VA models, DrivePI surpasses FB-OCC by 10.3 RayIoU for 3D occupancy on OpenOcc, reduces the mAVE from 0.591 to 0.509 for occupancy flow on OpenOcc, and achieves 32% lower L2 error than VAD (from 0.72m to 0.49m) for planning on nuScenes. Code will be available at https://github.com/happinesslz/DrivePI
PDF92December 17, 2025