ChatPaper.aiChatPaper

DrivePI: MLLM 4D con conciencia espacial para la comprensión, percepción, predicción y planificación unificadas en conducción autónoma

DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning

December 14, 2025
Autores: Zhe Liu, Runhui Huang, Rui Yang, Siming Yan, Zining Wang, Lu Hou, Di Lin, Xiang Bai, Hengshuang Zhao
cs.AI

Resumen

Aunque los modelos de lenguaje multimodal (MLLM) han demostrado capacidades sólidas en diversos dominios, su aplicación en la generación de salidas de percepción y predicción 3D de grano fino en la conducción autónoma sigue estando poco explorada. En este artículo, proponemos DrivePI, un novedoso MLLM 4D con conciencia espacial que sirve como un marco unificado Visión-Lenguaje-Acción (VLA) que también es compatible con modelos visión-acción (VA). Nuestro método realiza conjuntamente, de forma paralela y mediante optimización end-to-end, la comprensión espacial, la percepción 3D (es decir, ocupación 3D), la predicción (es decir, flujo de ocupación) y la planificación (es decir, salidas de acción). Para obtener información geométrica precisa y una apariencia visual rica, nuestro enfoque integra nubes de puntos, imágenes multi-vista e instrucciones de lenguaje dentro de una arquitectura MLLM unificada. Además, desarrollamos un motor de datos para generar pares de preguntas y respuestas (QA) de texto-ocupación y texto-flujo para la comprensión espacial 4D. Notablemente, utilizando solo un modelo Qwen2.5 de 0.5B como columna vertebral del MLLM, DrivePI, como modelo único unificado, iguala o supera tanto a los modelos VLA existentes como a los modelos VA especializados. Específicamente, en comparación con los modelos VLA, DrivePI supera a OpenDriveVLA-7B en un 2.5% de precisión media en nuScenes-QA y reduce la tasa de colisiones en un 70% con respecto a ORION (del 0.37% al 0.11%) en nuScenes. Frente a los modelos VA especializados, DrivePI supera a FB-OCC en 10.3 puntos de RayIoU para ocupación 3D en OpenOcc, reduce el mAVE de 0.591 a 0.509 para el flujo de ocupación en OpenOcc y logra un error L2 un 32% menor que VAD (de 0.72m a 0.49m) para la planificación en nuScenes. El código estará disponible en https://github.com/happinesslz/DrivePI.
English
Although multi-modal large language models (MLLMs) have shown strong capabilities across diverse domains, their application in generating fine-grained 3D perception and prediction outputs in autonomous driving remains underexplored. In this paper, we propose DrivePI, a novel spatial-aware 4D MLLM that serves as a unified Vision-Language-Action (VLA) framework that is also compatible with vision-action (VA) models. Our method jointly performs spatial understanding, 3D perception (i.e., 3D occupancy), prediction (i.e., occupancy flow), and planning (i.e., action outputs) in parallel through end-to-end optimization. To obtain both precise geometric information and rich visual appearance, our approach integrates point clouds, multi-view images, and language instructions within a unified MLLM architecture. We further develop a data engine to generate text-occupancy and text-flow QA pairs for 4D spatial understanding. Remarkably, with only a 0.5B Qwen2.5 model as MLLM backbone, DrivePI as a single unified model matches or exceeds both existing VLA models and specialized VA models. Specifically, compared to VLA models, DrivePI outperforms OpenDriveVLA-7B by 2.5% mean accuracy on nuScenes-QA and reduces collision rate by 70% over ORION (from 0.37% to 0.11%) on nuScenes. Against specialized VA models, DrivePI surpasses FB-OCC by 10.3 RayIoU for 3D occupancy on OpenOcc, reduces the mAVE from 0.591 to 0.509 for occupancy flow on OpenOcc, and achieves 32% lower L2 error than VAD (from 0.72m to 0.49m) for planning on nuScenes. Code will be available at https://github.com/happinesslz/DrivePI
PDF92December 17, 2025