Unterwegs mit GPT-4V(ision): Erste Erkundungen eines visuell-sprachlichen Modells für das autonome Fahren
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
November 9, 2023
Autoren: Licheng Wen, Xuemeng Yang, Daocheng Fu, Xiaofeng Wang, Pinlong Cai, Xin Li, Tao Ma, Yingxuan Li, Linran Xu, Dengke Shang, Zheng Zhu, Shaoyan Sun, Yeqi Bai, Xinyu Cai, Min Dou, Shuanglu Hu, Botian Shi
cs.AI
Zusammenfassung
Die Entwicklung autonomer Fahrtechnologien hängt von der anspruchsvollen Integration von Wahrnehmungs-, Entscheidungs- und Steuerungssystemen ab. Traditionelle Ansätze, sowohl datengetrieben als auch regelbasiert, wurden durch ihre Unfähigkeit, die Nuancen komplexer Fahrumgebungen und die Absichten anderer Verkehrsteilnehmer zu erfassen, behindert. Dies stellte ein erhebliches Hindernis dar, insbesondere bei der Entwicklung von gesundem Menschenverstand und differenziertem Szenenverständnis, die für sicheres und zuverlässiges autonomes Fahren erforderlich sind. Die Einführung von Visual Language Models (VLM) markiert eine neue Ära bei der Realisierung vollständig autonomer Fahrzeuge. Dieser Bericht bietet eine umfassende Bewertung des neuesten State-of-the-Art VLM, \modelnamefull, und dessen Anwendung in autonomen Fahrzeugszenarien. Wir untersuchen die Fähigkeiten des Modells, Fahrzeugszenen zu verstehen und darüber zu schlussfolgern, Entscheidungen zu treffen und letztendlich in der Rolle eines Fahrers zu handeln. Unsere umfangreichen Tests reichen von der grundlegenden Szenenerkennung bis hin zu komplexem kausalem Denken und Echtzeitentscheidungsfindung unter verschiedenen Bedingungen. Unsere Ergebnisse zeigen, dass \modelname im Vergleich zu bestehenden autonomen Systemen eine überlegene Leistung beim Szenenverständnis und kausalen Denken aufweist. Es zeigt das Potenzial, Out-of-Distribution-Szenarien zu bewältigen, Absichten zu erkennen und fundierte Entscheidungen in realen Fahrkontexten zu treffen. Dennoch bleiben Herausforderungen bestehen, insbesondere bei der Richtungserkennung, der Erkennung von Verkehrsampeln, der visuellen Verankerung und räumlichen Denkaufgaben. Diese Einschränkungen unterstreichen die Notwendigkeit weiterer Forschung und Entwicklung. Das Projekt ist nun auf GitHub für interessierte Parteien verfügbar und kann genutzt werden: https://github.com/PJLab-ADG/GPT4V-AD-Exploration
English
The pursuit of autonomous driving technology hinges on the sophisticated
integration of perception, decision-making, and control systems. Traditional
approaches, both data-driven and rule-based, have been hindered by their
inability to grasp the nuance of complex driving environments and the
intentions of other road users. This has been a significant bottleneck,
particularly in the development of common sense reasoning and nuanced scene
understanding necessary for safe and reliable autonomous driving. The advent of
Visual Language Models (VLM) represents a novel frontier in realizing fully
autonomous vehicle driving. This report provides an exhaustive evaluation of
the latest state-of-the-art VLM, \modelnamefull, and its application in
autonomous driving scenarios. We explore the model's abilities to understand
and reason about driving scenes, make decisions, and ultimately act in the
capacity of a driver. Our comprehensive tests span from basic scene recognition
to complex causal reasoning and real-time decision-making under varying
conditions. Our findings reveal that \modelname demonstrates superior
performance in scene understanding and causal reasoning compared to existing
autonomous systems. It showcases the potential to handle out-of-distribution
scenarios, recognize intentions, and make informed decisions in real driving
contexts. However, challenges remain, particularly in direction discernment,
traffic light recognition, vision grounding, and spatial reasoning tasks. These
limitations underscore the need for further research and development. Project
is now available on GitHub for interested parties to access and utilize:
https://github.com/PJLab-ADG/GPT4V-AD-Exploration