V2V-LLM: Voertuig-naar-Voertuig Samenwerkend Autonoom Rijden met Multi-Modale Grote Taalmodellen
V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models
February 14, 2025
Auteurs: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI
Samenvatting
Huidige autonome voertuigen vertrouwen voornamelijk op hun individuele sensoren om de omringende omgeving te begrijpen en toekomstige trajecten te plannen, wat onbetrouwbaar kan zijn wanneer de sensoren defect zijn of geblokkeerd worden. Om dit probleem aan te pakken, zijn coöperatieve perceptiemethoden via voertuig-naar-voertuig (V2V) communicatie voorgesteld, maar deze hebben zich meestal gericht op detectie en tracking. Hoe deze benaderingen bijdragen aan de algehele coöperatieve planningsprestatie is nog steeds onderbelicht. Geïnspireerd door recente vooruitgang in het gebruik van Large Language Models (LLMs) om autonome rijsystemen te bouwen, stellen we een nieuwe probleemstelling voor die een LLM integreert in coöperatief autonoom rijden, met de voorgestelde Vehicle-to-Vehicle Question-Answering (V2V-QA) dataset en benchmark. We stellen ook onze baseline-methode Vehicle-to-Vehicle Large Language Model (V2V-LLM) voor, die een LLM gebruikt om perceptie-informatie van meerdere verbonden autonome voertuigen (CAVs) te fuseren en rijgerelateerde vragen te beantwoorden: gronding, opmerkelijke objectidentificatie en planning. Experimentele resultaten tonen aan dat onze voorgestelde V2V-LLM een veelbelovend uniform modelarchitectuur kan zijn voor het uitvoeren van verschillende taken in coöperatief autonoom rijden, en presteert beter dan andere baseline-methoden die verschillende fusiebenaderingen gebruiken. Ons werk creëert ook een nieuwe onderzoeksrichting die de veiligheid van toekomstige autonome rijsystemen kan verbeteren. Onze projectwebsite: https://eddyhkchiu.github.io/v2vllm.github.io/ .
English
Current autonomous driving vehicles rely mainly on their individual sensors
to understand surrounding scenes and plan for future trajectories, which can be
unreliable when the sensors are malfunctioning or occluded. To address this
problem, cooperative perception methods via vehicle-to-vehicle (V2V)
communication have been proposed, but they have tended to focus on detection
and tracking. How those approaches contribute to overall cooperative planning
performance is still under-explored. Inspired by recent progress using Large
Language Models (LLMs) to build autonomous driving systems, we propose a novel
problem setting that integrates an LLM into cooperative autonomous driving,
with the proposed Vehicle-to-Vehicle Question-Answering (V2V-QA) dataset and
benchmark. We also propose our baseline method Vehicle-to-Vehicle Large
Language Model (V2V-LLM), which uses an LLM to fuse perception information from
multiple connected autonomous vehicles (CAVs) and answer driving-related
questions: grounding, notable object identification, and planning. Experimental
results show that our proposed V2V-LLM can be a promising unified model
architecture for performing various tasks in cooperative autonomous driving,
and outperforms other baseline methods that use different fusion approaches.
Our work also creates a new research direction that can improve the safety of
future autonomous driving systems. Our project website:
https://eddyhkchiu.github.io/v2vllm.github.io/ .Summary
AI-Generated Summary