V2V-GoT: Fahrzeug-zu-Fahrzeug-Kooperatives Autonomes Fahren mit Multimodalen Großen Sprachmodellen und Graph-of-Thoughts
V2V-GoT: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multimodal Large Language Models and Graph-of-Thoughts
September 22, 2025
papers.authors: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen, Stephen F. Smith
cs.AI
papers.abstract
Derzeitige state-of-the-art autonome Fahrzeuge könnten in sicherheitskritische Situationen geraten, wenn ihre lokalen Sensoren durch große nahegelegene Objekte auf der Straße verdeckt werden. Vehicle-to-Vehicle (V2V) kooperatives autonomes Fahren wurde als Mittel zur Lösung dieses Problems vorgeschlagen, und ein kürzlich eingeführtes Framework für kooperatives autonomes Fahren hat zudem einen Ansatz übernommen, der ein Multimodales Großes Sprachmodell (MLLM) integriert, um kooperative Wahrnehmungs- und Planungsprozesse zu vereinen. Obwohl die Anwendung von Graph-of-Thoughts-Reasoning auf das MLLM potenzielle Vorteile bietet, wurde diese Idee in bisheriger Forschung zum kooperativen autonomen Fahren nicht berücksichtigt. In diesem Artikel schlagen wir ein neuartiges Graph-of-Thoughts-Framework vor, das speziell für MLLM-basiertes kooperatives autonomes Fahren entwickelt wurde. Unser Graph-of-Thoughts beinhaltet unsere neuartigen Ideen der verdeckungsbewussten Wahrnehmung und planungsbewussten Vorhersage. Wir erstellen den V2V-GoT-QA-Datensatz und entwickeln das V2V-GoT-Modell für das Training und Testen des kooperativen Fahrens mit Graph-of-Thoughts. Unsere experimentellen Ergebnisse zeigen, dass unsere Methode andere Baselines in den Aufgaben der kooperativen Wahrnehmung, Vorhersage und Planung übertrifft.
English
Current state-of-the-art autonomous vehicles could face safety-critical
situations when their local sensors are occluded by large nearby objects on the
road. Vehicle-to-vehicle (V2V) cooperative autonomous driving has been proposed
as a means of addressing this problem, and one recently introduced framework
for cooperative autonomous driving has further adopted an approach that
incorporates a Multimodal Large Language Model (MLLM) to integrate cooperative
perception and planning processes. However, despite the potential benefit of
applying graph-of-thoughts reasoning to the MLLM, this idea has not been
considered by previous cooperative autonomous driving research. In this paper,
we propose a novel graph-of-thoughts framework specifically designed for
MLLM-based cooperative autonomous driving. Our graph-of-thoughts includes our
proposed novel ideas of occlusion-aware perception and planning-aware
prediction. We curate the V2V-GoT-QA dataset and develop the V2V-GoT model for
training and testing the cooperative driving graph-of-thoughts. Our
experimental results show that our method outperforms other baselines in
cooperative perception, prediction, and planning tasks.