ChatPaper.aiChatPaper

DrivePI: 공간 인식 4D MLLM 기반 통합 자율주행 이해, 인지, 예측 및 계획 시스템

DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning

December 14, 2025
저자: Zhe Liu, Runhui Huang, Rui Yang, Siming Yan, Zining Wang, Lu Hou, Di Lin, Xiang Bai, Hengshuang Zhao
cs.AI

초록

멀티모달 대규모 언어 모델(MLLM)이 다양한 분야에서 강력한 능력을 보여주고 있지만, 자율 주행에서 세밀한 3D 인식 및 예측 출력을 생성하는 적용 분야는 아직 충분히 탐구되지 않았습니다. 본 논문에서는 통합 Vision-Language-Action(VLA) 프레임워크이면서 Vision-Action(VA) 모델과도 호환되는 새로운 공간 인식형 4D MLLM인 DrivePI를 제안합니다. 우리의 방법은 종단간 최적화를 통해 공간 이해, 3D 인식(즉, 3D 점유), 예측(즉, 점유 흐름) 및 계획(즉, 행동 출력)을 병렬로 공동 수행합니다. 정밀한 기하학적 정보와 풍부한 시각적 외관을 모두 얻기 위해, 우리의 접근 방식은 포인트 클라우드, 다중 뷰 이미지 및 언어 지시를 통합된 MLLM 아키텍처 내에 통합합니다. 또한 4D 공간 이해를 위한 텍스트-점유 및 텍스트-흐름 QA 쌍을 생성하는 데이터 엔진을 추가로 개발했습니다. 주목할 점은, 단지 0.5B 규모의 Qwen2.5 모델을 MLLM 백본으로만 사용하여도 DrivePI는 단일 통합 모델로서 기존 VLA 모델과 특화된 VA 모델 모두를 능가하거나 그에 버금가는 성능을 보입니다. 구체적으로, VLA 모델과 비교할 때 DrivePI는 nuScenes-QA에서 OpenDriveVLA-7B보다 평균 정확도가 2.5% 높으며, nuScenes에서 ORION 대비 충돌률을 70% 감소시켰습니다(0.37%에서 0.11%로). 특화된 VA 모델과 대비하여, DrivePI는 OpenOcc에서 3D 점유에 대해 FB-OCC보다 RayIoU가 10.3 높고, OpenOcc에서 점유 흐름에 대한 mAVE를 0.591에서 0.509로 낮추며, nuScenes에서 계획에 대해 VAD보다 32% 낮은 L2 오차를 달성했습니다(0.72m에서 0.49m로). 코드는 https://github.com/happinesslz/DrivePI 에서 공개될 예정입니다.
English
Although multi-modal large language models (MLLMs) have shown strong capabilities across diverse domains, their application in generating fine-grained 3D perception and prediction outputs in autonomous driving remains underexplored. In this paper, we propose DrivePI, a novel spatial-aware 4D MLLM that serves as a unified Vision-Language-Action (VLA) framework that is also compatible with vision-action (VA) models. Our method jointly performs spatial understanding, 3D perception (i.e., 3D occupancy), prediction (i.e., occupancy flow), and planning (i.e., action outputs) in parallel through end-to-end optimization. To obtain both precise geometric information and rich visual appearance, our approach integrates point clouds, multi-view images, and language instructions within a unified MLLM architecture. We further develop a data engine to generate text-occupancy and text-flow QA pairs for 4D spatial understanding. Remarkably, with only a 0.5B Qwen2.5 model as MLLM backbone, DrivePI as a single unified model matches or exceeds both existing VLA models and specialized VA models. Specifically, compared to VLA models, DrivePI outperforms OpenDriveVLA-7B by 2.5% mean accuracy on nuScenes-QA and reduces collision rate by 70% over ORION (from 0.37% to 0.11%) on nuScenes. Against specialized VA models, DrivePI surpasses FB-OCC by 10.3 RayIoU for 3D occupancy on OpenOcc, reduces the mAVE from 0.591 to 0.509 for occupancy flow on OpenOcc, and achieves 32% lower L2 error than VAD (from 0.72m to 0.49m) for planning on nuScenes. Code will be available at https://github.com/happinesslz/DrivePI
PDF92December 17, 2025