DrivePI: MLLM 4D con consapevolezza spaziale per la comprensione, percezione, previsione e pianificazione unificata della guida autonoma
DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning
December 14, 2025
Autori: Zhe Liu, Runhui Huang, Rui Yang, Siming Yan, Zining Wang, Lu Hou, Di Lin, Xiang Bai, Hengshuang Zhao
cs.AI
Abstract
Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLM) abbiano dimostrato capacità notevoli in vari domini, la loro applicazione nella generazione di output di percezione 3D granulare e di previsione per la guida autonoma rimane poco esplorata. In questo articolo, proponiamo DrivePI, un innovativo MLLM 4D con consapevolezza spaziale che funge da framework unificato Visione-Linguaggio-Azione (VLA), compatibile anche con modelli visione-azione (VA). Il nostro metodo esegue congiuntamente e in parallelo, attraverso un'ottimizzazione end-to-end, la comprensione spaziale, la percezione 3D (ovvero, l'occupazione 3D), la previsione (ovvero, il flusso di occupazione) e la pianificazione (ovvero, gli output di azione). Per ottenere sia informazioni geometriche precise che un ricco aspetto visivo, il nostro approccio integra nuvole di punti, immagini multi-vista e istruzioni linguistiche all'interno di un'architettura MLLM unificata. Abbiamo inoltre sviluppato un motore di dati per generare coppie di domande e risposte (QA) testo-occupazione e testo-flusso per la comprensione spaziale 4D. Notevolmente, utilizzando un modello Qwen2.5 da soli 0.5B come backbone MLLM, DrivePI, come singolo modello unificato, eguaglia o supera sia i modelli VLA esistenti che i modelli VA specializzati. Nello specifico, rispetto ai modelli VLA, DrivePI supera OpenDriveVLA-7B del 2.5% in accuratezza media su nuScenes-QA e riduce il tasso di collisione del 70% rispetto a ORION (dallo 0.37% allo 0.11%) su nuScenes. Confrontato con modelli VA specializzati, DrivePI supera FB-OCC di 10.3 RayIoU per l'occupazione 3D su OpenOcc, riduce il mAVE da 0.591 a 0.509 per il flusso di occupazione su OpenOcc, e raggiunge un errore L2 inferiore del 32% rispetto a VAD (da 0.72m a 0.49m) per la pianificazione su nuScenes. Il codice sarà disponibile all'indirizzo https://github.com/happinesslz/DrivePI.
English
Although multi-modal large language models (MLLMs) have shown strong capabilities across diverse domains, their application in generating fine-grained 3D perception and prediction outputs in autonomous driving remains underexplored. In this paper, we propose DrivePI, a novel spatial-aware 4D MLLM that serves as a unified Vision-Language-Action (VLA) framework that is also compatible with vision-action (VA) models. Our method jointly performs spatial understanding, 3D perception (i.e., 3D occupancy), prediction (i.e., occupancy flow), and planning (i.e., action outputs) in parallel through end-to-end optimization. To obtain both precise geometric information and rich visual appearance, our approach integrates point clouds, multi-view images, and language instructions within a unified MLLM architecture. We further develop a data engine to generate text-occupancy and text-flow QA pairs for 4D spatial understanding. Remarkably, with only a 0.5B Qwen2.5 model as MLLM backbone, DrivePI as a single unified model matches or exceeds both existing VLA models and specialized VA models. Specifically, compared to VLA models, DrivePI outperforms OpenDriveVLA-7B by 2.5% mean accuracy on nuScenes-QA and reduces collision rate by 70% over ORION (from 0.37% to 0.11%) on nuScenes. Against specialized VA models, DrivePI surpasses FB-OCC by 10.3 RayIoU for 3D occupancy on OpenOcc, reduces the mAVE from 0.591 to 0.509 for occupancy flow on OpenOcc, and achieves 32% lower L2 error than VAD (from 0.72m to 0.49m) for planning on nuScenes. Code will be available at https://github.com/happinesslz/DrivePI