V2V-GoT: Guida Autonoma Cooperativa Veicolo-Veicolo con Modelli Linguistici Multimodali di Grande Scala e Grafo dei Pensieri
V2V-GoT: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multimodal Large Language Models and Graph-of-Thoughts
September 22, 2025
Autori: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen, Stephen F. Smith
cs.AI
Abstract
I veicoli autonomi all'avanguardia attuali potrebbero trovarsi in situazioni critiche per la sicurezza quando i loro sensori locali sono occlusi da grandi oggetti vicini sulla strada. La guida autonoma cooperativa veicolo-veicolo (V2V) è stata proposta come mezzo per affrontare questo problema, e un framework recentemente introdotto per la guida autonoma cooperativa ha ulteriormente adottato un approccio che incorpora un Modello Linguistico Multimodale di Grande Dimensione (MLLM) per integrare i processi di percezione e pianificazione cooperativa. Tuttavia, nonostante il potenziale beneficio dell'applicazione del ragionamento a grafo di pensieri (graph-of-thoughts) all'MLLM, questa idea non è stata considerata dalla precedente ricerca sulla guida autonoma cooperativa. In questo articolo, proponiamo un nuovo framework a grafo di pensieri specificamente progettato per la guida autonoma cooperativa basata su MLLM. Il nostro grafo di pensieri include le nostre nuove idee di percezione consapevole dell'occlusione e previsione consapevole della pianificazione. Curiamo il dataset V2V-GoT-QA e sviluppiamo il modello V2V-GoT per l'addestramento e il test del grafo di pensieri per la guida cooperativa. I nostri risultati sperimentali dimostrano che il nostro metodo supera altri approcci di riferimento nei compiti di percezione, previsione e pianificazione cooperativa.
English
Current state-of-the-art autonomous vehicles could face safety-critical
situations when their local sensors are occluded by large nearby objects on the
road. Vehicle-to-vehicle (V2V) cooperative autonomous driving has been proposed
as a means of addressing this problem, and one recently introduced framework
for cooperative autonomous driving has further adopted an approach that
incorporates a Multimodal Large Language Model (MLLM) to integrate cooperative
perception and planning processes. However, despite the potential benefit of
applying graph-of-thoughts reasoning to the MLLM, this idea has not been
considered by previous cooperative autonomous driving research. In this paper,
we propose a novel graph-of-thoughts framework specifically designed for
MLLM-based cooperative autonomous driving. Our graph-of-thoughts includes our
proposed novel ideas of occlusion-aware perception and planning-aware
prediction. We curate the V2V-GoT-QA dataset and develop the V2V-GoT model for
training and testing the cooperative driving graph-of-thoughts. Our
experimental results show that our method outperforms other baselines in
cooperative perception, prediction, and planning tasks.