NaviDriveVLM: Disaccoppiamento del Ragionamento di Alto Livello e della Pianificazione del Movimento per la Guida Autonoma

Abstract

I modelli visione-linguaggio (VLM) sono emersi come una direzione promettente per la guida autonoma end-to-end, modellando congiuntamente osservazioni visive, contesto di guida e ragionamento basato sul linguaggio. Tuttavia, i sistemi esistenti basati su VLM affrontano un compromesso tra ragionamento di alto livello e pianificazione del movimento: i modelli di grandi dimensioni offrono una forte comprensione semantica ma sono costosi da adattare per un controllo preciso, mentre i piccoli modelli VLM possono essere messi a punto in modo efficiente ma spesso mostrano un ragionamento più debole. Proponiamo NaviDriveVLM, un framework disaccoppiato che separa il ragionamento dalla generazione di azioni utilizzando un Navigator su larga scala e un Driver leggero e addestrabile. Questo progetto preserva la capacità di ragionamento, riduce i costi di addestramento e fornisce una rappresentazione intermedia esplicita e interpretabile per la pianificazione a valle. Gli esperimenti sul benchmark nuScenes mostrano che NaviDriveVLM supera i baseline di grandi VLM nella pianificazione del movimento end-to-end.

English

Vision-language models (VLMs) have emerged as a promising direction for end-to-end autonomous driving (AD) by jointly modeling visual observations, driving context, and language-based reasoning. However, existing VLM-based systems face a trade-off between high-level reasoning and motion planning: large models offer strong semantic understanding but are costly to adapt for precise control, whereas small VLM models can be fine-tuned efficiently but often exhibit weaker reasoning. We propose NaviDriveVLM, a decoupled framework that separates reasoning from action generation using a large-scale Navigator and a lightweight trainable Driver. This design preserves reasoning ability, reduces training cost, and provides an explicit interpretable intermediate representation for downstream planning. Experiments on the nuScenes benchmark show that NaviDriveVLM outperforms large VLM baselines in end-to-end motion planning.

NaviDriveVLM: Disaccoppiamento del Ragionamento di Alto Livello e della Pianificazione del Movimento per la Guida Autonoma

NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

Abstract

Support