V2V-LLM: Fahrzeug-zu-Fahrzeug Kooperatives Autonomes Fahren mit Multi-Modalen Großen Sprachmodellen
V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models
February 14, 2025
Autoren: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI
Zusammenfassung
Aktuelle autonome Fahrzeuge verlassen sich hauptsächlich auf ihre individuellen Sensoren, um die Umgebung zu verstehen und zukünftige Trajektorien zu planen, was unzuverlässig sein kann, wenn die Sensoren fehlerhaft sind oder verdeckt werden. Um dieses Problem zu lösen, wurden kooperative Wahrnehmungsmethoden über Fahrzeug-zu-Fahrzeug (V2V)-Kommunikation vorgeschlagen, die sich jedoch hauptsächlich auf die Erkennung und Verfolgung konzentrierten. Wie diese Ansätze zur Gesamtleistung der kooperativen Planung beitragen, ist noch wenig erforscht. Inspiriert von den jüngsten Fortschritten bei der Verwendung von Large Language Models (LLMs) zur Entwicklung autonomer Fahrsysteme schlagen wir eine neuartige Problemstellung vor, die ein LLM in kooperatives autonomes Fahren integriert, mit dem vorgeschlagenen Fahrzeug-zu-Fahrzeug Frage-Antwort (V2V-QA) Datensatz und Benchmark. Wir schlagen auch unsere Basismethode Fahrzeug-zu-Fahrzeug Large Language Model (V2V-LLM) vor, das ein LLM verwendet, um Wahrnehmungsinformationen von mehreren verbundenen autonomen Fahrzeugen (CAVs) zu verschmelzen und fahrspezifische Fragen zu beantworten: Verankerung, Identifizierung bemerkenswerter Objekte und Planung. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes V2V-LLM ein vielversprechendes einheitliches Modellarchitektur für die Durchführung verschiedener Aufgaben im kooperativen autonomen Fahren sein kann und andere Basismethoden, die unterschiedliche Verschmelzungsansätze verwenden, übertreffen. Unsere Arbeit schafft auch eine neue Forschungsrichtung, die die Sicherheit zukünftiger autonomer Fahrsysteme verbessern kann. Unsere Projektwebsite: https://eddyhkchiu.github.io/v2vllm.github.io/.
English
Current autonomous driving vehicles rely mainly on their individual sensors
to understand surrounding scenes and plan for future trajectories, which can be
unreliable when the sensors are malfunctioning or occluded. To address this
problem, cooperative perception methods via vehicle-to-vehicle (V2V)
communication have been proposed, but they have tended to focus on detection
and tracking. How those approaches contribute to overall cooperative planning
performance is still under-explored. Inspired by recent progress using Large
Language Models (LLMs) to build autonomous driving systems, we propose a novel
problem setting that integrates an LLM into cooperative autonomous driving,
with the proposed Vehicle-to-Vehicle Question-Answering (V2V-QA) dataset and
benchmark. We also propose our baseline method Vehicle-to-Vehicle Large
Language Model (V2V-LLM), which uses an LLM to fuse perception information from
multiple connected autonomous vehicles (CAVs) and answer driving-related
questions: grounding, notable object identification, and planning. Experimental
results show that our proposed V2V-LLM can be a promising unified model
architecture for performing various tasks in cooperative autonomous driving,
and outperforms other baseline methods that use different fusion approaches.
Our work also creates a new research direction that can improve the safety of
future autonomous driving systems. Our project website:
https://eddyhkchiu.github.io/v2vllm.github.io/ .Summary
AI-Generated Summary