В пути с GPT-4V(ision): Первые исследования визуально-языковой модели в автономном вождении
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
November 9, 2023
Авторы: Licheng Wen, Xuemeng Yang, Daocheng Fu, Xiaofeng Wang, Pinlong Cai, Xin Li, Tao Ma, Yingxuan Li, Linran Xu, Dengke Shang, Zheng Zhu, Shaoyan Sun, Yeqi Bai, Xinyu Cai, Min Dou, Shuanglu Hu, Botian Shi
cs.AI
Аннотация
Разработка технологий автономного вождения основывается на сложной интеграции систем восприятия, принятия решений и управления. Традиционные подходы, как основанные на данных, так и на правилах, сталкиваются с трудностями в понимании нюансов сложных дорожных ситуаций и намерений других участников дорожного движения. Это стало значительным препятствием, особенно в развитии здравого смысла и тонкого понимания сцены, необходимых для безопасного и надежного автономного вождения. Появление визуально-языковых моделей (VLM) открывает новые горизонты для реализации полностью автономного вождения. В данном отчете представлено всестороннее исследование последней передовой модели VLM, \modelnamefull, и ее применения в сценариях автономного вождения. Мы исследуем способности модели понимать и анализировать дорожные ситуации, принимать решения и действовать в роли водителя. Наши тесты охватывают как базовое распознавание сцен, так и сложное причинно-следственное рассуждение и принятие решений в реальном времени в различных условиях. Результаты показывают, что \modelname демонстрирует превосходную производительность в понимании сцен и причинно-следственном анализе по сравнению с существующими автономными системами. Модель демонстрирует потенциал для обработки сценариев, выходящих за пределы обучающих данных, распознавания намерений и принятия обоснованных решений в реальных дорожных условиях. Однако остаются вызовы, особенно в задачах определения направления, распознавания светофоров, визуального закрепления и пространственного рассуждения. Эти ограничения подчеркивают необходимость дальнейших исследований и разработок. Проект теперь доступен на GitHub для всех заинтересованных сторон: https://github.com/PJLab-ADG/GPT4V-AD-Exploration.
English
The pursuit of autonomous driving technology hinges on the sophisticated
integration of perception, decision-making, and control systems. Traditional
approaches, both data-driven and rule-based, have been hindered by their
inability to grasp the nuance of complex driving environments and the
intentions of other road users. This has been a significant bottleneck,
particularly in the development of common sense reasoning and nuanced scene
understanding necessary for safe and reliable autonomous driving. The advent of
Visual Language Models (VLM) represents a novel frontier in realizing fully
autonomous vehicle driving. This report provides an exhaustive evaluation of
the latest state-of-the-art VLM, \modelnamefull, and its application in
autonomous driving scenarios. We explore the model's abilities to understand
and reason about driving scenes, make decisions, and ultimately act in the
capacity of a driver. Our comprehensive tests span from basic scene recognition
to complex causal reasoning and real-time decision-making under varying
conditions. Our findings reveal that \modelname demonstrates superior
performance in scene understanding and causal reasoning compared to existing
autonomous systems. It showcases the potential to handle out-of-distribution
scenarios, recognize intentions, and make informed decisions in real driving
contexts. However, challenges remain, particularly in direction discernment,
traffic light recognition, vision grounding, and spatial reasoning tasks. These
limitations underscore the need for further research and development. Project
is now available on GitHub for interested parties to access and utilize:
https://github.com/PJLab-ADG/GPT4V-AD-Exploration