ChatPaper.aiChatPaper

V2V-LLM: Condução Autônoma Cooperativa entre Veículos com Modelos de Linguagem Multimodais de Grande Escala

V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

February 14, 2025
Autores: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI

Resumo

Os veículos autônomos atuais dependem principalmente de seus sensores individuais para compreender as cenas ao redor e planejar trajetórias futuras, o que pode ser pouco confiável quando os sensores apresentam falhas ou estão obstruídos. Para resolver esse problema, métodos de percepção cooperativa por meio de comunicação veículo-a-veículo (V2V) foram propostos, mas tendem a se concentrar em detecção e rastreamento. Como essas abordagens contribuem para o desempenho geral do planejamento cooperativo ainda é pouco explorado. Inspirados pelos recentes avanços no uso de Modelos de Linguagem de Grande Escala (LLMs) para construir sistemas de direção autônoma, propomos uma nova configuração de problema que integra um LLM na direção autônoma cooperativa, com o conjunto de dados e benchmark propostos de Perguntas e Respostas Veículo-a-Veículo (V2V-QA). Também propomos nosso método base, o Modelo de Linguagem de Grande Escala Veículo-a-Veículo (V2V-LLM), que utiliza um LLM para fundir informações de percepção de múltiplos veículos autônomos conectados (CAVs) e responder a perguntas relacionadas à direção: fundamentação, identificação de objetos notáveis e planejamento. Os resultados experimentais mostram que nosso V2V-LLM proposto pode ser uma arquitetura de modelo unificada promissora para realizar diversas tarefas na direção autônoma cooperativa, superando outros métodos base que utilizam abordagens de fusão diferentes. Nosso trabalho também cria uma nova direção de pesquisa que pode melhorar a segurança dos futuros sistemas de direção autônoma. Nosso site do projeto: https://eddyhkchiu.github.io/v2vllm.github.io/.
English
Current autonomous driving vehicles rely mainly on their individual sensors to understand surrounding scenes and plan for future trajectories, which can be unreliable when the sensors are malfunctioning or occluded. To address this problem, cooperative perception methods via vehicle-to-vehicle (V2V) communication have been proposed, but they have tended to focus on detection and tracking. How those approaches contribute to overall cooperative planning performance is still under-explored. Inspired by recent progress using Large Language Models (LLMs) to build autonomous driving systems, we propose a novel problem setting that integrates an LLM into cooperative autonomous driving, with the proposed Vehicle-to-Vehicle Question-Answering (V2V-QA) dataset and benchmark. We also propose our baseline method Vehicle-to-Vehicle Large Language Model (V2V-LLM), which uses an LLM to fuse perception information from multiple connected autonomous vehicles (CAVs) and answer driving-related questions: grounding, notable object identification, and planning. Experimental results show that our proposed V2V-LLM can be a promising unified model architecture for performing various tasks in cooperative autonomous driving, and outperforms other baseline methods that use different fusion approaches. Our work also creates a new research direction that can improve the safety of future autonomous driving systems. Our project website: https://eddyhkchiu.github.io/v2vllm.github.io/ .

Summary

AI-Generated Summary

PDF42February 17, 2025