V2V-LLM: Кооперативное автономное вождение между транспортными средствами с использованием мультимодальных больших языковых моделей
V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models
February 14, 2025
Авторы: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI
Аннотация
Современные автономные транспортные средства в основном полагаются на свои собственные датчики для понимания окружающей обстановки и планирования будущих траекторий, что может быть ненадежным при неисправности или заслонении датчиков. Для решения этой проблемы были предложены методы кооперативного восприятия через связь между транспортными средствами (V2V), однако они в основном сосредоточены на задачах обнаружения и отслеживания. Вопрос о том, как эти подходы влияют на общую производительность кооперативного планирования, остается недостаточно изученным. Вдохновленные недавними достижениями в использовании больших языковых моделей (LLM) для создания автономных систем вождения, мы предлагаем новую постановку задачи, которая интегрирует LLM в кооперативное автономное вождение, с предложенным набором данных и эталоном Vehicle-to-Vehicle Question-Answering (V2V-QA). Мы также предлагаем наш базовый метод Vehicle-to-Vehicle Large Language Model (V2V-LLM), который использует LLM для объединения информации о восприятии от нескольких подключенных автономных транспортных средств (CAV) и ответа на вопросы, связанные с вождением: локализация, идентификация значимых объектов и планирование. Экспериментальные результаты показывают, что наш предложенный V2V-LLM может стать перспективной унифицированной архитектурой модели для выполнения различных задач в кооперативном автономном вождении и превосходит другие базовые методы, использующие различные подходы к объединению данных. Наша работа также открывает новое направление исследований, которое может повысить безопасность будущих автономных систем вождения. Сайт проекта: https://eddyhkchiu.github.io/v2vllm.github.io/.
English
Current autonomous driving vehicles rely mainly on their individual sensors
to understand surrounding scenes and plan for future trajectories, which can be
unreliable when the sensors are malfunctioning or occluded. To address this
problem, cooperative perception methods via vehicle-to-vehicle (V2V)
communication have been proposed, but they have tended to focus on detection
and tracking. How those approaches contribute to overall cooperative planning
performance is still under-explored. Inspired by recent progress using Large
Language Models (LLMs) to build autonomous driving systems, we propose a novel
problem setting that integrates an LLM into cooperative autonomous driving,
with the proposed Vehicle-to-Vehicle Question-Answering (V2V-QA) dataset and
benchmark. We also propose our baseline method Vehicle-to-Vehicle Large
Language Model (V2V-LLM), which uses an LLM to fuse perception information from
multiple connected autonomous vehicles (CAVs) and answer driving-related
questions: grounding, notable object identification, and planning. Experimental
results show that our proposed V2V-LLM can be a promising unified model
architecture for performing various tasks in cooperative autonomous driving,
and outperforms other baseline methods that use different fusion approaches.
Our work also creates a new research direction that can improve the safety of
future autonomous driving systems. Our project website:
https://eddyhkchiu.github.io/v2vllm.github.io/ .Summary
AI-Generated Summary