DrivePI: MLLM 4D com Consciência Espacial para Compreensão, Percepção, Previsão e Planejamento Unificados em Condução Autônoma
DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning
December 14, 2025
Autores: Zhe Liu, Runhui Huang, Rui Yang, Siming Yan, Zining Wang, Lu Hou, Di Lin, Xiang Bai, Hengshuang Zhao
cs.AI
Resumo
Embora os modelos de linguagem multimodal (MLLMs) tenham demonstrado fortes capacidades em diversos domínios, sua aplicação na geração de saídas de percepção e previsão 3D de alta granularidade na condução autónoma permanece pouco explorada. Neste artigo, propomos o DrivePI, um novo MLLM 4D com consciência espacial que funciona como uma estrutura unificada Visão-Linguagem-Ação (VLA), também compatível com modelos visão-ação (VA). O nosso método executa em paralelo, através de otimização de ponta a ponta, a compreensão espacial, a perceção 3D (ou seja, ocupação 3D), a previsão (ou seja, fluxo de ocupação) e o planeamento (ou seja, saídas de ação). Para obter informações geométricas precisas e aparência visual rica, a nossa abordagem integra nuvens de pontos, imagens multi-vista e instruções de linguagem numa arquitetura MLLM unificada. Desenvolvemos ainda um motor de dados para gerar pares de perguntas e respostas (QA) de texto-ocupação e texto-fluxo para compreensão espacial 4D. Notavelmente, utilizando apenas um modelo Qwen2.5 de 0.5B como espinha dorsal do MLLM, o DrivePI, como um único modelo unificado, iguala ou supera tanto os modelos VLA existentes como os modelos VA especializados. Especificamente, em comparação com modelos VLA, o DrivePI supera o OpenDriveVLA-7B em 2.5% de precisão média no nuScenes-QA e reduz a taxa de colisão em 70% face ao ORION (de 0.37% para 0.11%) no nuScenes. Contra modelos VA especializados, o DrivePI supera o FB-OCC em 10.3 RayIoU para ocupação 3D no OpenOcc, reduz o mAVE de 0.591 para 0.509 para o fluxo de ocupação no OpenOcc e alcança um erro L2 32% menor que o VAD (de 0.72m para 0.49m) no planeamento no nuScenes. O código estará disponível em https://github.com/happinesslz/DrivePI.
English
Although multi-modal large language models (MLLMs) have shown strong capabilities across diverse domains, their application in generating fine-grained 3D perception and prediction outputs in autonomous driving remains underexplored. In this paper, we propose DrivePI, a novel spatial-aware 4D MLLM that serves as a unified Vision-Language-Action (VLA) framework that is also compatible with vision-action (VA) models. Our method jointly performs spatial understanding, 3D perception (i.e., 3D occupancy), prediction (i.e., occupancy flow), and planning (i.e., action outputs) in parallel through end-to-end optimization. To obtain both precise geometric information and rich visual appearance, our approach integrates point clouds, multi-view images, and language instructions within a unified MLLM architecture. We further develop a data engine to generate text-occupancy and text-flow QA pairs for 4D spatial understanding. Remarkably, with only a 0.5B Qwen2.5 model as MLLM backbone, DrivePI as a single unified model matches or exceeds both existing VLA models and specialized VA models. Specifically, compared to VLA models, DrivePI outperforms OpenDriveVLA-7B by 2.5% mean accuracy on nuScenes-QA and reduces collision rate by 70% over ORION (from 0.37% to 0.11%) on nuScenes. Against specialized VA models, DrivePI surpasses FB-OCC by 10.3 RayIoU for 3D occupancy on OpenOcc, reduces the mAVE from 0.591 to 0.509 for occupancy flow on OpenOcc, and achieves 32% lower L2 error than VAD (from 0.72m to 0.49m) for planning on nuScenes. Code will be available at https://github.com/happinesslz/DrivePI