DrivePI: MLLM 4D com Consciência Espacial para Compreensão, Percepção, Previsão e Planejamento Unificados em Condução Autônoma

Resumo

Embora os modelos de linguagem multimodal (MLLMs) tenham demonstrado fortes capacidades em diversos domínios, sua aplicação na geração de saídas de percepção e previsão 3D de alta granularidade na condução autónoma permanece pouco explorada. Neste artigo, propomos o DrivePI, um novo MLLM 4D com consciência espacial que funciona como uma estrutura unificada Visão-Linguagem-Ação (VLA), também compatível com modelos visão-ação (VA). O nosso método executa em paralelo, através de otimização de ponta a ponta, a compreensão espacial, a perceção 3D (ou seja, ocupação 3D), a previsão (ou seja, fluxo de ocupação) e o planeamento (ou seja, saídas de ação). Para obter informações geométricas precisas e aparência visual rica, a nossa abordagem integra nuvens de pontos, imagens multi-vista e instruções de linguagem numa arquitetura MLLM unificada. Desenvolvemos ainda um motor de dados para gerar pares de perguntas e respostas (QA) de texto-ocupação e texto-fluxo para compreensão espacial 4D. Notavelmente, utilizando apenas um modelo Qwen2.5 de 0.5B como espinha dorsal do MLLM, o DrivePI, como um único modelo unificado, iguala ou supera tanto os modelos VLA existentes como os modelos VA especializados. Especificamente, em comparação com modelos VLA, o DrivePI supera o OpenDriveVLA-7B em 2.5% de precisão média no nuScenes-QA e reduz a taxa de colisão em 70% face ao ORION (de 0.37% para 0.11%) no nuScenes. Contra modelos VA especializados, o DrivePI supera o FB-OCC em 10.3 RayIoU para ocupação 3D no OpenOcc, reduz o mAVE de 0.591 para 0.509 para o fluxo de ocupação no OpenOcc e alcança um erro L2 32% menor que o VAD (de 0.72m para 0.49m) no planeamento no nuScenes. O código estará disponível em https://github.com/happinesslz/DrivePI.

English

Although multi-modal large language models (MLLMs) have shown strong capabilities across diverse domains, their application in generating fine-grained 3D perception and prediction outputs in autonomous driving remains underexplored. In this paper, we propose DrivePI, a novel spatial-aware 4D MLLM that serves as a unified Vision-Language-Action (VLA) framework that is also compatible with vision-action (VA) models. Our method jointly performs spatial understanding, 3D perception (i.e., 3D occupancy), prediction (i.e., occupancy flow), and planning (i.e., action outputs) in parallel through end-to-end optimization. To obtain both precise geometric information and rich visual appearance, our approach integrates point clouds, multi-view images, and language instructions within a unified MLLM architecture. We further develop a data engine to generate text-occupancy and text-flow QA pairs for 4D spatial understanding. Remarkably, with only a 0.5B Qwen2.5 model as MLLM backbone, DrivePI as a single unified model matches or exceeds both existing VLA models and specialized VA models. Specifically, compared to VLA models, DrivePI outperforms OpenDriveVLA-7B by 2.5% mean accuracy on nuScenes-QA and reduces collision rate by 70% over ORION (from 0.37% to 0.11%) on nuScenes. Against specialized VA models, DrivePI surpasses FB-OCC by 10.3 RayIoU for 3D occupancy on OpenOcc, reduces the mAVE from 0.591 to 0.509 for occupancy flow on OpenOcc, and achieves 32% lower L2 error than VAD (from 0.72m to 0.49m) for planning on nuScenes. Code will be available at https://github.com/happinesslz/DrivePI

DrivePI: MLLM 4D com Consciência Espacial para Compreensão, Percepção, Previsão e Planejamento Unificados em Condução Autônoma

DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning

Resumo

Support