ChatPaper.aiChatPaper

En la Carretera con GPT-4V(isión): Exploraciones Iniciales del Modelo de Lenguaje Visual en la Conducción Autónoma

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

November 9, 2023
Autores: Licheng Wen, Xuemeng Yang, Daocheng Fu, Xiaofeng Wang, Pinlong Cai, Xin Li, Tao Ma, Yingxuan Li, Linran Xu, Dengke Shang, Zheng Zhu, Shaoyan Sun, Yeqi Bai, Xinyu Cai, Min Dou, Shuanglu Hu, Botian Shi
cs.AI

Resumen

La búsqueda de la tecnología de conducción autónoma depende de la integración sofisticada de sistemas de percepción, toma de decisiones y control. Los enfoques tradicionales, tanto basados en datos como en reglas, se han visto limitados por su incapacidad para captar los matices de los entornos de conducción complejos y las intenciones de otros usuarios de la vía. Esto ha representado un cuello de botella significativo, particularmente en el desarrollo del razonamiento de sentido común y la comprensión matizada de escenarios necesarios para una conducción autónoma segura y confiable. El surgimiento de los Modelos de Lenguaje Visual (VLM, por sus siglas en inglés) representa una nueva frontera en la realización de la conducción completamente autónoma de vehículos. Este informe proporciona una evaluación exhaustiva del último modelo VLM de vanguardia, \modelnamefull, y su aplicación en escenarios de conducción autónoma. Exploramos las capacidades del modelo para comprender y razonar sobre escenas de conducción, tomar decisiones y, en última instancia, actuar en el rol de un conductor. Nuestras pruebas abarcan desde el reconocimiento básico de escenas hasta el razonamiento causal complejo y la toma de decisiones en tiempo real bajo diversas condiciones. Nuestros hallazgos revelan que \modelname demuestra un rendimiento superior en la comprensión de escenas y el razonamiento causal en comparación con los sistemas autónomos existentes. Muestra el potencial para manejar escenarios fuera de distribución, reconocer intenciones y tomar decisiones informadas en contextos de conducción real. Sin embargo, persisten desafíos, particularmente en la discernimiento de direcciones, el reconocimiento de semáforos, la fundamentación visual y las tareas de razonamiento espacial. Estas limitaciones subrayan la necesidad de continuar con la investigación y el desarrollo. El proyecto ahora está disponible en GitHub para que las partes interesadas puedan acceder y utilizarlo: https://github.com/PJLab-ADG/GPT4V-AD-Exploration.
English
The pursuit of autonomous driving technology hinges on the sophisticated integration of perception, decision-making, and control systems. Traditional approaches, both data-driven and rule-based, have been hindered by their inability to grasp the nuance of complex driving environments and the intentions of other road users. This has been a significant bottleneck, particularly in the development of common sense reasoning and nuanced scene understanding necessary for safe and reliable autonomous driving. The advent of Visual Language Models (VLM) represents a novel frontier in realizing fully autonomous vehicle driving. This report provides an exhaustive evaluation of the latest state-of-the-art VLM, \modelnamefull, and its application in autonomous driving scenarios. We explore the model's abilities to understand and reason about driving scenes, make decisions, and ultimately act in the capacity of a driver. Our comprehensive tests span from basic scene recognition to complex causal reasoning and real-time decision-making under varying conditions. Our findings reveal that \modelname demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems. It showcases the potential to handle out-of-distribution scenarios, recognize intentions, and make informed decisions in real driving contexts. However, challenges remain, particularly in direction discernment, traffic light recognition, vision grounding, and spatial reasoning tasks. These limitations underscore the need for further research and development. Project is now available on GitHub for interested parties to access and utilize: https://github.com/PJLab-ADG/GPT4V-AD-Exploration
PDF131December 15, 2024