ChatPaper.aiChatPaper

V2V-LLM : Conduite autonome coopérative véhicule-à-véhicule avec des modèles de langage multi-modaux de grande taille

V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

February 14, 2025
Auteurs: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI

Résumé

Les véhicules autonomes actuels s'appuient principalement sur leurs capteurs individuels pour comprendre les scènes environnantes et planifier les trajectoires futures, ce qui peut s'avérer peu fiable en cas de défaillance ou d'occlusion des capteurs. Pour résoudre ce problème, des méthodes de perception coopérative via la communication véhicule à véhicule (V2V) ont été proposées, mais elles ont tendance à se concentrer sur la détection et le suivi. La manière dont ces approches contribuent à la performance globale de la planification coopérative reste encore peu explorée. Inspirés par les récents progrès utilisant les modèles de langage de grande taille (LLM) pour construire des systèmes de conduite autonome, nous proposons un nouveau cadre de problème qui intègre un LLM dans la conduite autonome coopérative, avec le jeu de données et le benchmark Vehicle-to-Vehicle Question-Answering (V2V-QA). Nous proposons également notre méthode de base Vehicle-to-Vehicle Large Language Model (V2V-LLM), qui utilise un LLM pour fusionner les informations de perception provenant de plusieurs véhicules autonomes connectés (CAV) et répondre à des questions liées à la conduite : ancrage, identification d'objets remarquables et planification. Les résultats expérimentaux montrent que notre V2V-LLM proposé peut être une architecture de modèle unifiée prometteuse pour effectuer diverses tâches dans la conduite autonome coopérative, et surpasse d'autres méthodes de base utilisant différentes approches de fusion. Notre travail ouvre également une nouvelle direction de recherche qui peut améliorer la sécurité des futurs systèmes de conduite autonome. Notre site web de projet : https://eddyhkchiu.github.io/v2vllm.github.io/ .
English
Current autonomous driving vehicles rely mainly on their individual sensors to understand surrounding scenes and plan for future trajectories, which can be unreliable when the sensors are malfunctioning or occluded. To address this problem, cooperative perception methods via vehicle-to-vehicle (V2V) communication have been proposed, but they have tended to focus on detection and tracking. How those approaches contribute to overall cooperative planning performance is still under-explored. Inspired by recent progress using Large Language Models (LLMs) to build autonomous driving systems, we propose a novel problem setting that integrates an LLM into cooperative autonomous driving, with the proposed Vehicle-to-Vehicle Question-Answering (V2V-QA) dataset and benchmark. We also propose our baseline method Vehicle-to-Vehicle Large Language Model (V2V-LLM), which uses an LLM to fuse perception information from multiple connected autonomous vehicles (CAVs) and answer driving-related questions: grounding, notable object identification, and planning. Experimental results show that our proposed V2V-LLM can be a promising unified model architecture for performing various tasks in cooperative autonomous driving, and outperforms other baseline methods that use different fusion approaches. Our work also creates a new research direction that can improve the safety of future autonomous driving systems. Our project website: https://eddyhkchiu.github.io/v2vllm.github.io/ .

Summary

AI-Generated Summary

PDF42February 17, 2025