ChatPaper.aiChatPaper

V2V-GoT: Fahrzeug-zu-Fahrzeug-Kooperatives Autonomes Fahren mit Multimodalen Großen Sprachmodellen und Graph-of-Thoughts

V2V-GoT: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multimodal Large Language Models and Graph-of-Thoughts

September 22, 2025
papers.authors: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen, Stephen F. Smith
cs.AI

papers.abstract

Derzeitige state-of-the-art autonome Fahrzeuge könnten in sicherheitskritische Situationen geraten, wenn ihre lokalen Sensoren durch große nahegelegene Objekte auf der Straße verdeckt werden. Vehicle-to-Vehicle (V2V) kooperatives autonomes Fahren wurde als Mittel zur Lösung dieses Problems vorgeschlagen, und ein kürzlich eingeführtes Framework für kooperatives autonomes Fahren hat zudem einen Ansatz übernommen, der ein Multimodales Großes Sprachmodell (MLLM) integriert, um kooperative Wahrnehmungs- und Planungsprozesse zu vereinen. Obwohl die Anwendung von Graph-of-Thoughts-Reasoning auf das MLLM potenzielle Vorteile bietet, wurde diese Idee in bisheriger Forschung zum kooperativen autonomen Fahren nicht berücksichtigt. In diesem Artikel schlagen wir ein neuartiges Graph-of-Thoughts-Framework vor, das speziell für MLLM-basiertes kooperatives autonomes Fahren entwickelt wurde. Unser Graph-of-Thoughts beinhaltet unsere neuartigen Ideen der verdeckungsbewussten Wahrnehmung und planungsbewussten Vorhersage. Wir erstellen den V2V-GoT-QA-Datensatz und entwickeln das V2V-GoT-Modell für das Training und Testen des kooperativen Fahrens mit Graph-of-Thoughts. Unsere experimentellen Ergebnisse zeigen, dass unsere Methode andere Baselines in den Aufgaben der kooperativen Wahrnehmung, Vorhersage und Planung übertrifft.
English
Current state-of-the-art autonomous vehicles could face safety-critical situations when their local sensors are occluded by large nearby objects on the road. Vehicle-to-vehicle (V2V) cooperative autonomous driving has been proposed as a means of addressing this problem, and one recently introduced framework for cooperative autonomous driving has further adopted an approach that incorporates a Multimodal Large Language Model (MLLM) to integrate cooperative perception and planning processes. However, despite the potential benefit of applying graph-of-thoughts reasoning to the MLLM, this idea has not been considered by previous cooperative autonomous driving research. In this paper, we propose a novel graph-of-thoughts framework specifically designed for MLLM-based cooperative autonomous driving. Our graph-of-thoughts includes our proposed novel ideas of occlusion-aware perception and planning-aware prediction. We curate the V2V-GoT-QA dataset and develop the V2V-GoT model for training and testing the cooperative driving graph-of-thoughts. Our experimental results show that our method outperforms other baselines in cooperative perception, prediction, and planning tasks.
PDF32September 23, 2025