DrivePI : MLLM 4D spatialement conscient pour une compréhension unifiée de la conduite autonome, perception, prédiction et planification
DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning
December 14, 2025
papers.authors: Zhe Liu, Runhui Huang, Rui Yang, Siming Yan, Zining Wang, Lu Hou, Di Lin, Xiang Bai, Hengshuang Zhao
cs.AI
papers.abstract
Bien que les modèles de langage de grande taille multimodaux (MLLM) aient démontré de solides capacités dans divers domaines, leur application pour générer des sorties de perception 3D granulaire et de prédiction dans la conduite autonome reste peu explorée. Dans cet article, nous proposons DrivePI, un nouveau MLLM 4D conscient de l'espace qui sert de cadre unifié Vision-Langage-Action (VLA) également compatible avec les modèles vision-action (VA). Notre méthode effectue conjointement et en parallèle, via une optimisation de bout en bout, la compréhension spatiale, la perception 3D (c'est-à-dire l'occupation 3D), la prédiction (c'est-à-dire le flux d'occupation) et la planification (c'est-à-dire les sorties d'action). Pour obtenir à la fois des informations géométriques précises et une apparence visuelle riche, notre approche intègre les nuages de points, les images multi-vues et les instructions langagières au sein d'une architecture MLLM unifiée. Nous développons en outre un moteur de données pour générer des paires question-réponse texte-occupation et texte-flux pour la compréhension spatiale 4D. Fait remarquable, avec seulement un modèle Qwen2.5 de 0,5 milliard de paramètres comme backbone MLLM, DrivePI, en tant que modèle unique unifié, égale ou dépasse à la fois les modèles VLA existants et les modèles VA spécialisés. Concrètement, par rapport aux modèles VLA, DrivePI surpasse OpenDriveVLA-7B de 2,5 % en précision moyenne sur nuScenes-QA et réduit le taux de collision de 70 % par rapport à ORION (de 0,37 % à 0,11 %) sur nuScenes. Face aux modèles VA spécialisés, DrivePI surpasse FB-OCC de 10,3 points de RayIoU pour l'occupation 3D sur OpenOcc, réduit le mAVE de 0,591 à 0,509 pour le flux d'occupation sur OpenOcc, et atteint une erreur L2 inférieure de 32 % à celle de VAD (de 0,72 m à 0,49 m) pour la planification sur nuScenes. Le code sera disponible à l'adresse https://github.com/happinesslz/DrivePI
English
Although multi-modal large language models (MLLMs) have shown strong capabilities across diverse domains, their application in generating fine-grained 3D perception and prediction outputs in autonomous driving remains underexplored. In this paper, we propose DrivePI, a novel spatial-aware 4D MLLM that serves as a unified Vision-Language-Action (VLA) framework that is also compatible with vision-action (VA) models. Our method jointly performs spatial understanding, 3D perception (i.e., 3D occupancy), prediction (i.e., occupancy flow), and planning (i.e., action outputs) in parallel through end-to-end optimization. To obtain both precise geometric information and rich visual appearance, our approach integrates point clouds, multi-view images, and language instructions within a unified MLLM architecture. We further develop a data engine to generate text-occupancy and text-flow QA pairs for 4D spatial understanding. Remarkably, with only a 0.5B Qwen2.5 model as MLLM backbone, DrivePI as a single unified model matches or exceeds both existing VLA models and specialized VA models. Specifically, compared to VLA models, DrivePI outperforms OpenDriveVLA-7B by 2.5% mean accuracy on nuScenes-QA and reduces collision rate by 70% over ORION (from 0.37% to 0.11%) on nuScenes. Against specialized VA models, DrivePI surpasses FB-OCC by 10.3 RayIoU for 3D occupancy on OpenOcc, reduces the mAVE from 0.591 to 0.509 for occupancy flow on OpenOcc, and achieves 32% lower L2 error than VAD (from 0.72m to 0.49m) for planning on nuScenes. Code will be available at https://github.com/happinesslz/DrivePI