V2V-LLM: Conducción Autónoma Cooperativa entre Vehículos con Modelos de Lenguaje Multimodales de Gran Escala
V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models
February 14, 2025
Autores: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI
Resumen
Los vehículos de conducción autónoma actuales dependen principalmente de sus sensores individuales para comprender las escenas circundantes y planificar trayectorias futuras, lo que puede resultar poco fiable cuando los sensores presentan fallos o están ocluidos. Para abordar este problema, se han propuesto métodos de percepción cooperativa mediante comunicación vehículo a vehículo (V2V), pero estos han tendido a centrarse en la detección y el seguimiento. Cómo contribuyen estos enfoques al rendimiento general de la planificación cooperativa sigue siendo un área poco explorada. Inspirados por los recientes avances en el uso de Modelos de Lenguaje de Gran Escala (LLMs) para construir sistemas de conducción autónoma, proponemos un nuevo escenario problemático que integra un LLM en la conducción autónoma cooperativa, junto con el conjunto de datos y punto de referencia propuesto Vehicle-to-Vehicle Question-Answering (V2V-QA). También proponemos nuestro método base Vehicle-to-Vehicle Large Language Model (V2V-LLM), que utiliza un LLM para fusionar información de percepción de múltiples vehículos autónomos conectados (CAVs) y responder preguntas relacionadas con la conducción: fundamentación, identificación de objetos notables y planificación. Los resultados experimentales muestran que nuestro V2V-LLM propuesto puede ser una arquitectura de modelo unificada prometedora para realizar diversas tareas en la conducción autónoma cooperativa, superando a otros métodos base que utilizan diferentes enfoques de fusión. Nuestro trabajo también crea una nueva dirección de investigación que puede mejorar la seguridad de los futuros sistemas de conducción autónoma. Nuestro sitio web del proyecto: https://eddyhkchiu.github.io/v2vllm.github.io/.
English
Current autonomous driving vehicles rely mainly on their individual sensors
to understand surrounding scenes and plan for future trajectories, which can be
unreliable when the sensors are malfunctioning or occluded. To address this
problem, cooperative perception methods via vehicle-to-vehicle (V2V)
communication have been proposed, but they have tended to focus on detection
and tracking. How those approaches contribute to overall cooperative planning
performance is still under-explored. Inspired by recent progress using Large
Language Models (LLMs) to build autonomous driving systems, we propose a novel
problem setting that integrates an LLM into cooperative autonomous driving,
with the proposed Vehicle-to-Vehicle Question-Answering (V2V-QA) dataset and
benchmark. We also propose our baseline method Vehicle-to-Vehicle Large
Language Model (V2V-LLM), which uses an LLM to fuse perception information from
multiple connected autonomous vehicles (CAVs) and answer driving-related
questions: grounding, notable object identification, and planning. Experimental
results show that our proposed V2V-LLM can be a promising unified model
architecture for performing various tasks in cooperative autonomous driving,
and outperforms other baseline methods that use different fusion approaches.
Our work also creates a new research direction that can improve the safety of
future autonomous driving systems. Our project website:
https://eddyhkchiu.github.io/v2vllm.github.io/ .Summary
AI-Generated Summary