V2V-LLM: Guida Autonoma Cooperativa Veicolo-Veicolo con Modelli Linguistici Multimodali di Grande Dimensione
V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models
February 14, 2025
Autori: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI
Abstract
I veicoli a guida autonoma attuali si basano principalmente sui propri sensori per comprendere le scene circostanti e pianificare le traiettorie future, il che può risultare inaffidabile quando i sensori sono malfunzionanti o ostruiti. Per affrontare questo problema, sono stati proposti metodi di percezione cooperativa tramite comunicazione veicolo-veicolo (V2V), che tuttavia si sono concentrati principalmente su rilevamento e tracciamento. Il contributo di questi approcci alla pianificazione cooperativa complessiva è ancora poco esplorato. Ispirati dai recenti progressi nell'uso di Large Language Models (LLM) per costruire sistemi di guida autonoma, proponiamo una nuova impostazione problematica che integra un LLM nella guida autonoma cooperativa, con il dataset e benchmark proposti Vehicle-to-Vehicle Question-Answering (V2V-QA). Proponiamo inoltre il nostro metodo di base Vehicle-to-Vehicle Large Language Model (V2V-LLM), che utilizza un LLM per fondere le informazioni di percezione provenienti da più veicoli autonomi connessi (CAV) e rispondere a domande relative alla guida: ancoraggio, identificazione di oggetti rilevanti e pianificazione. I risultati sperimentali dimostrano che il nostro V2V-LLM proposto può essere un'architettura di modello unificata promettente per eseguire varie attività nella guida autonoma cooperativa, superando altri metodi di base che utilizzano approcci di fusione diversi. Il nostro lavoro crea anche una nuova direzione di ricerca che può migliorare la sicurezza dei futuri sistemi di guida autonoma. Il sito web del nostro progetto: https://eddyhkchiu.github.io/v2vllm.github.io/.
English
Current autonomous driving vehicles rely mainly on their individual sensors
to understand surrounding scenes and plan for future trajectories, which can be
unreliable when the sensors are malfunctioning or occluded. To address this
problem, cooperative perception methods via vehicle-to-vehicle (V2V)
communication have been proposed, but they have tended to focus on detection
and tracking. How those approaches contribute to overall cooperative planning
performance is still under-explored. Inspired by recent progress using Large
Language Models (LLMs) to build autonomous driving systems, we propose a novel
problem setting that integrates an LLM into cooperative autonomous driving,
with the proposed Vehicle-to-Vehicle Question-Answering (V2V-QA) dataset and
benchmark. We also propose our baseline method Vehicle-to-Vehicle Large
Language Model (V2V-LLM), which uses an LLM to fuse perception information from
multiple connected autonomous vehicles (CAVs) and answer driving-related
questions: grounding, notable object identification, and planning. Experimental
results show that our proposed V2V-LLM can be a promising unified model
architecture for performing various tasks in cooperative autonomous driving,
and outperforms other baseline methods that use different fusion approaches.
Our work also creates a new research direction that can improve the safety of
future autonomous driving systems. Our project website:
https://eddyhkchiu.github.io/v2vllm.github.io/ .Summary
AI-Generated Summary