Sur la route avec GPT-4V(ision) : Premières explorations d'un modèle visio-linguistique pour la conduite autonome
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
November 9, 2023
Auteurs: Licheng Wen, Xuemeng Yang, Daocheng Fu, Xiaofeng Wang, Pinlong Cai, Xin Li, Tao Ma, Yingxuan Li, Linran Xu, Dengke Shang, Zheng Zhu, Shaoyan Sun, Yeqi Bai, Xinyu Cai, Min Dou, Shuanglu Hu, Botian Shi
cs.AI
Résumé
La quête de la technologie de conduite autonome repose sur l'intégration sophistiquée des systèmes de perception, de prise de décision et de contrôle. Les approches traditionnelles, qu'elles soient basées sur les données ou sur des règles, ont été entravées par leur incapacité à saisir les nuances des environnements de conduite complexes et les intentions des autres usagers de la route. Cela a constitué un goulot d'étranglement majeur, en particulier dans le développement du raisonnement de bon sens et de la compréhension nuancée des scènes nécessaires à une conduite autonome sûre et fiable. L'avènement des modèles de langage visuel (VLM) représente une nouvelle frontière dans la réalisation de la conduite entièrement autonome des véhicules. Ce rapport propose une évaluation exhaustive du dernier modèle VLM de pointe, \modelnamefull, et de son application dans des scénarios de conduite autonome. Nous explorons les capacités du modèle à comprendre et à raisonner sur les scènes de conduite, à prendre des décisions et, finalement, à agir en tant que conducteur. Nos tests complets couvrent tout, de la reconnaissance de base des scènes au raisonnement causal complexe et à la prise de décision en temps réel dans diverses conditions. Nos résultats révèlent que \modelname démontre une performance supérieure dans la compréhension des scènes et le raisonnement causal par rapport aux systèmes autonomes existants. Il montre un potentiel pour gérer des scénarios hors distribution, reconnaître les intentions et prendre des décisions éclairées dans des contextes de conduite réels. Cependant, des défis subsistent, en particulier dans la discernement de direction, la reconnaissance des feux de circulation, l'ancrage visuel et les tâches de raisonnement spatial. Ces limites soulignent la nécessité de poursuivre les recherches et le développement. Le projet est désormais disponible sur GitHub pour les parties intéressées à y accéder et à l'utiliser : https://github.com/PJLab-ADG/GPT4V-AD-Exploration
English
The pursuit of autonomous driving technology hinges on the sophisticated
integration of perception, decision-making, and control systems. Traditional
approaches, both data-driven and rule-based, have been hindered by their
inability to grasp the nuance of complex driving environments and the
intentions of other road users. This has been a significant bottleneck,
particularly in the development of common sense reasoning and nuanced scene
understanding necessary for safe and reliable autonomous driving. The advent of
Visual Language Models (VLM) represents a novel frontier in realizing fully
autonomous vehicle driving. This report provides an exhaustive evaluation of
the latest state-of-the-art VLM, \modelnamefull, and its application in
autonomous driving scenarios. We explore the model's abilities to understand
and reason about driving scenes, make decisions, and ultimately act in the
capacity of a driver. Our comprehensive tests span from basic scene recognition
to complex causal reasoning and real-time decision-making under varying
conditions. Our findings reveal that \modelname demonstrates superior
performance in scene understanding and causal reasoning compared to existing
autonomous systems. It showcases the potential to handle out-of-distribution
scenarios, recognize intentions, and make informed decisions in real driving
contexts. However, challenges remain, particularly in direction discernment,
traffic light recognition, vision grounding, and spatial reasoning tasks. These
limitations underscore the need for further research and development. Project
is now available on GitHub for interested parties to access and utilize:
https://github.com/PJLab-ADG/GPT4V-AD-Exploration