Op Weg met GPT-4V(ision): Vroege Verkenningen van een Visueel-Taalmodel voor Autonoom Rijden
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
November 9, 2023
Auteurs: Licheng Wen, Xuemeng Yang, Daocheng Fu, Xiaofeng Wang, Pinlong Cai, Xin Li, Tao Ma, Yingxuan Li, Linran Xu, Dengke Shang, Zheng Zhu, Shaoyan Sun, Yeqi Bai, Xinyu Cai, Min Dou, Shuanglu Hu, Botian Shi
cs.AI
Samenvatting
De ontwikkeling van autonome rijtechnologie is afhankelijk van de geavanceerde integratie van waarnemings-, besluitvormings- en controlesystemen. Traditionele benaderingen, zowel data-gedreven als regelgebaseerd, zijn belemmerd door hun onvermogen om de nuances van complexe rijomgevingen en de intenties van andere weggebruikers te begrijpen. Dit heeft een aanzienlijke bottleneck gevormd, met name bij de ontwikkeling van gezond verstand en genuanceerde scènebegrip die nodig zijn voor veilig en betrouwbaar autonoom rijden. De opkomst van Visuele Taalmodellen (VLM) markeert een nieuwe grens in het realiseren van volledig autonoom voertuigrijden. Dit rapport biedt een uitgebreide evaluatie van het nieuwste state-of-the-art VLM, \modelnamefull, en de toepassing ervan in autonome rijscenario's. We onderzoeken de mogelijkheden van het model om rijscènes te begrijpen en te redeneren, beslissingen te nemen en uiteindelijk te handelen in de rol van een bestuurder. Onze uitgebreide tests variëren van basis scèneherkenning tot complex causaal redeneren en real-time besluitvorming onder verschillende omstandigheden. Onze bevindingen tonen aan dat \modelname superieure prestaties levert in scènebegrip en causaal redeneren in vergelijking met bestaande autonome systemen. Het toont het potentieel om out-of-distribution scenario's te hanteren, intenties te herkennen en weloverwogen beslissingen te nemen in echte rijcontexten. Er blijven echter uitdagingen bestaan, met name in richtingsonderscheiding, verkeerslichtherkenning, visuele gronding en ruimtelijke redeneertaken. Deze beperkingen benadrukken de noodzaak van verder onderzoek en ontwikkeling. Het project is nu beschikbaar op GitHub voor geïnteresseerde partijen om te raadplegen en te gebruiken: https://github.com/PJLab-ADG/GPT4V-AD-Exploration
English
The pursuit of autonomous driving technology hinges on the sophisticated
integration of perception, decision-making, and control systems. Traditional
approaches, both data-driven and rule-based, have been hindered by their
inability to grasp the nuance of complex driving environments and the
intentions of other road users. This has been a significant bottleneck,
particularly in the development of common sense reasoning and nuanced scene
understanding necessary for safe and reliable autonomous driving. The advent of
Visual Language Models (VLM) represents a novel frontier in realizing fully
autonomous vehicle driving. This report provides an exhaustive evaluation of
the latest state-of-the-art VLM, \modelnamefull, and its application in
autonomous driving scenarios. We explore the model's abilities to understand
and reason about driving scenes, make decisions, and ultimately act in the
capacity of a driver. Our comprehensive tests span from basic scene recognition
to complex causal reasoning and real-time decision-making under varying
conditions. Our findings reveal that \modelname demonstrates superior
performance in scene understanding and causal reasoning compared to existing
autonomous systems. It showcases the potential to handle out-of-distribution
scenarios, recognize intentions, and make informed decisions in real driving
contexts. However, challenges remain, particularly in direction discernment,
traffic light recognition, vision grounding, and spatial reasoning tasks. These
limitations underscore the need for further research and development. Project
is now available on GitHub for interested parties to access and utilize:
https://github.com/PJLab-ADG/GPT4V-AD-Exploration