DrivePI: Пространственно-осведомленная 4D MLLM для единого понимания, восприятия, прогнозирования и планирования в автономном вождении
DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning
December 14, 2025
Авторы: Zhe Liu, Runhui Huang, Rui Yang, Siming Yan, Zining Wang, Lu Hou, Di Lin, Xiang Bai, Hengshuang Zhao
cs.AI
Аннотация
Хотя мультимодальные большие языковые модели (MLLM) продемонстрировали высокие возможности в различных областях, их применение для генерации детализированных результатов 3D-восприятия и прогнозирования в автономном вождении остается недостаточно изученным. В данной статье мы предлагаем DrivePI — новую пространственно-ориентированную 4D MLLM, которая служит унифицированной структурой «Вижение-Язык-Действие» (VLA), совместимой также с моделями «Вижение-Действие» (VA). Наш метод совместно выполняет пространственное понимание, 3D-восприятие (т.е. 3D-оккупанс), прогнозирование (т.е. поток оккупанса) и планирование (т.е. выходные действия) параллельно за счет сквозной оптимизации. Для получения как точной геометрической информации, так и богатого визуального представления наш подход интегрирует облака точек, многовидовые изображения и языковые инструкции в единую архитектуру MLLM. Мы также разработали механизм генерации данных для создания вопросно-ответных пар «текст-оккупанс» и «текст-поток» для 4D-пространственного понимания. Примечательно, что даже с моделью Qwen2.5 объемом всего 0.5B в качестве основы MLLM, DrivePI как единая унифицированная модель соответствует или превосходит как существующие VLA-модели, так и специализированные VA-модели. В частности, по сравнению с VLA-моделями, DrivePI превосходит OpenDriveVLA-7B на 2.5% по средней точности на nuScenes-QA и снижает частоту столкновений на 70% относительно ORION (с 0.37% до 0.11%) на nuScenes. По сравнению со специализированными VA-моделями, DrivePI превосходит FB-OCC на 10.3 RayIoU для 3D-оккупанса на OpenOcc, снижает mAVE с 0.591 до 0.509 для потока оккупанса на OpenOcc и достигает на 32% меньшей ошибки L2, чем VAD (с 0.72м до 0.49м) для планирования на nuScenes. Код будет доступен по адресу https://github.com/happinesslz/DrivePI.
English
Although multi-modal large language models (MLLMs) have shown strong capabilities across diverse domains, their application in generating fine-grained 3D perception and prediction outputs in autonomous driving remains underexplored. In this paper, we propose DrivePI, a novel spatial-aware 4D MLLM that serves as a unified Vision-Language-Action (VLA) framework that is also compatible with vision-action (VA) models. Our method jointly performs spatial understanding, 3D perception (i.e., 3D occupancy), prediction (i.e., occupancy flow), and planning (i.e., action outputs) in parallel through end-to-end optimization. To obtain both precise geometric information and rich visual appearance, our approach integrates point clouds, multi-view images, and language instructions within a unified MLLM architecture. We further develop a data engine to generate text-occupancy and text-flow QA pairs for 4D spatial understanding. Remarkably, with only a 0.5B Qwen2.5 model as MLLM backbone, DrivePI as a single unified model matches or exceeds both existing VLA models and specialized VA models. Specifically, compared to VLA models, DrivePI outperforms OpenDriveVLA-7B by 2.5% mean accuracy on nuScenes-QA and reduces collision rate by 70% over ORION (from 0.37% to 0.11%) on nuScenes. Against specialized VA models, DrivePI surpasses FB-OCC by 10.3 RayIoU for 3D occupancy on OpenOcc, reduces the mAVE from 0.591 to 0.509 for occupancy flow on OpenOcc, and achieves 32% lower L2 error than VAD (from 0.72m to 0.49m) for planning on nuScenes. Code will be available at https://github.com/happinesslz/DrivePI