ChatPaper.aiChatPaper

V2V-GoT: Guida Autonoma Cooperativa Veicolo-Veicolo con Modelli Linguistici Multimodali di Grande Scala e Grafo dei Pensieri

V2V-GoT: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multimodal Large Language Models and Graph-of-Thoughts

September 22, 2025
Autori: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen, Stephen F. Smith
cs.AI

Abstract

I veicoli autonomi all'avanguardia attuali potrebbero trovarsi in situazioni critiche per la sicurezza quando i loro sensori locali sono occlusi da grandi oggetti vicini sulla strada. La guida autonoma cooperativa veicolo-veicolo (V2V) è stata proposta come mezzo per affrontare questo problema, e un framework recentemente introdotto per la guida autonoma cooperativa ha ulteriormente adottato un approccio che incorpora un Modello Linguistico Multimodale di Grande Dimensione (MLLM) per integrare i processi di percezione e pianificazione cooperativa. Tuttavia, nonostante il potenziale beneficio dell'applicazione del ragionamento a grafo di pensieri (graph-of-thoughts) all'MLLM, questa idea non è stata considerata dalla precedente ricerca sulla guida autonoma cooperativa. In questo articolo, proponiamo un nuovo framework a grafo di pensieri specificamente progettato per la guida autonoma cooperativa basata su MLLM. Il nostro grafo di pensieri include le nostre nuove idee di percezione consapevole dell'occlusione e previsione consapevole della pianificazione. Curiamo il dataset V2V-GoT-QA e sviluppiamo il modello V2V-GoT per l'addestramento e il test del grafo di pensieri per la guida cooperativa. I nostri risultati sperimentali dimostrano che il nostro metodo supera altri approcci di riferimento nei compiti di percezione, previsione e pianificazione cooperativa.
English
Current state-of-the-art autonomous vehicles could face safety-critical situations when their local sensors are occluded by large nearby objects on the road. Vehicle-to-vehicle (V2V) cooperative autonomous driving has been proposed as a means of addressing this problem, and one recently introduced framework for cooperative autonomous driving has further adopted an approach that incorporates a Multimodal Large Language Model (MLLM) to integrate cooperative perception and planning processes. However, despite the potential benefit of applying graph-of-thoughts reasoning to the MLLM, this idea has not been considered by previous cooperative autonomous driving research. In this paper, we propose a novel graph-of-thoughts framework specifically designed for MLLM-based cooperative autonomous driving. Our graph-of-thoughts includes our proposed novel ideas of occlusion-aware perception and planning-aware prediction. We curate the V2V-GoT-QA dataset and develop the V2V-GoT model for training and testing the cooperative driving graph-of-thoughts. Our experimental results show that our method outperforms other baselines in cooperative perception, prediction, and planning tasks.
PDF33September 23, 2025