Na Estrada com o GPT-4V(ision): Explorações Iniciais do Modelo de Linguagem Visual na Condução Autônoma
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
November 9, 2023
Autores: Licheng Wen, Xuemeng Yang, Daocheng Fu, Xiaofeng Wang, Pinlong Cai, Xin Li, Tao Ma, Yingxuan Li, Linran Xu, Dengke Shang, Zheng Zhu, Shaoyan Sun, Yeqi Bai, Xinyu Cai, Min Dou, Shuanglu Hu, Botian Shi
cs.AI
Resumo
A busca pela tecnologia de condução autônoma depende da integração sofisticada de sistemas de percepção, tomada de decisão e controle. As abordagens tradicionais, tanto baseadas em dados quanto em regras, têm sido limitadas pela incapacidade de compreender as nuances de ambientes de condução complexos e as intenções de outros usuários da via. Isso tem sido um gargalo significativo, especialmente no desenvolvimento do raciocínio de senso comum e da compreensão contextualizada de cenas necessários para uma condução autônoma segura e confiável. O advento dos Modelos de Linguagem Visual (VLM) representa uma nova fronteira na realização da condução totalmente autônoma de veículos. Este relatório fornece uma avaliação exaustiva do mais recente estado da arte em VLM, \modelnamefull, e sua aplicação em cenários de condução autônoma. Exploramos as capacidades do modelo para compreender e raciocinar sobre cenas de condução, tomar decisões e, finalmente, agir no papel de um motorista. Nossos testes abrangentes variam desde o reconhecimento básico de cenas até o raciocínio causal complexo e a tomada de decisão em tempo real sob diversas condições. Nossas descobertas revelam que o \modelname demonstra desempenho superior na compreensão de cenas e no raciocínio causal em comparação com os sistemas autônomos existentes. Ele mostra o potencial para lidar com cenários fora da distribuição, reconhecer intenções e tomar decisões informadas em contextos reais de condução. No entanto, desafios permanecem, particularmente na discernimento de direção, reconhecimento de semáforos, fundamentação visual e tarefas de raciocínio espacial. Essas limitações destacam a necessidade de mais pesquisa e desenvolvimento. O projeto agora está disponível no GitHub para partes interessadas acessarem e utilizarem: https://github.com/PJLab-ADG/GPT4V-AD-Exploration.
English
The pursuit of autonomous driving technology hinges on the sophisticated
integration of perception, decision-making, and control systems. Traditional
approaches, both data-driven and rule-based, have been hindered by their
inability to grasp the nuance of complex driving environments and the
intentions of other road users. This has been a significant bottleneck,
particularly in the development of common sense reasoning and nuanced scene
understanding necessary for safe and reliable autonomous driving. The advent of
Visual Language Models (VLM) represents a novel frontier in realizing fully
autonomous vehicle driving. This report provides an exhaustive evaluation of
the latest state-of-the-art VLM, \modelnamefull, and its application in
autonomous driving scenarios. We explore the model's abilities to understand
and reason about driving scenes, make decisions, and ultimately act in the
capacity of a driver. Our comprehensive tests span from basic scene recognition
to complex causal reasoning and real-time decision-making under varying
conditions. Our findings reveal that \modelname demonstrates superior
performance in scene understanding and causal reasoning compared to existing
autonomous systems. It showcases the potential to handle out-of-distribution
scenarios, recognize intentions, and make informed decisions in real driving
contexts. However, challenges remain, particularly in direction discernment,
traffic light recognition, vision grounding, and spatial reasoning tasks. These
limitations underscore the need for further research and development. Project
is now available on GitHub for interested parties to access and utilize:
https://github.com/PJLab-ADG/GPT4V-AD-Exploration