Sulla Strada con GPT-4V(ision): Prime Esplorazioni di un Modello Visivo-Linguistico per la Guida Autonoma
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
November 9, 2023
Autori: Licheng Wen, Xuemeng Yang, Daocheng Fu, Xiaofeng Wang, Pinlong Cai, Xin Li, Tao Ma, Yingxuan Li, Linran Xu, Dengke Shang, Zheng Zhu, Shaoyan Sun, Yeqi Bai, Xinyu Cai, Min Dou, Shuanglu Hu, Botian Shi
cs.AI
Abstract
Il perseguimento della tecnologia di guida autonoma si basa sull'integrazione sofisticata di sistemi di percezione, decisione e controllo. Gli approcci tradizionali, sia basati sui dati che su regole, sono stati limitati dalla loro incapacità di cogliere le sfumature degli ambienti di guida complessi e le intenzioni degli altri utenti della strada. Questo ha rappresentato un significativo collo di bottiglia, in particolare nello sviluppo del ragionamento basato sul senso comune e della comprensione contestuale necessari per una guida autonoma sicura e affidabile. L'avvento dei Modelli di Linguaggio Visivo (VLM) rappresenta una nuova frontiera nel realizzare una guida completamente autonoma dei veicoli. Questo rapporto fornisce una valutazione esaustiva dello stato dell'arte più recente dei VLM, \modelnamefull, e della sua applicazione negli scenari di guida autonoma. Esploriamo le capacità del modello di comprendere e ragionare sulle scene di guida, prendere decisioni e agire in qualità di conducente. I nostri test completi spaziano dal riconoscimento di base delle scene al ragionamento causale complesso e alla decisione in tempo reale in condizioni variabili. I nostri risultati rivelano che \modelname dimostra prestazioni superiori nella comprensione delle scene e nel ragionamento causale rispetto ai sistemi autonomi esistenti. Mostra il potenziale di gestire scenari fuori distribuzione, riconoscere le intenzioni e prendere decisioni informate in contesti di guida reali. Tuttavia, rimangono delle sfide, in particolare nel discernimento della direzione, nel riconoscimento dei semafori, nel grounding visivo e nei compiti di ragionamento spaziale. Queste limitazioni sottolineano la necessità di ulteriori ricerche e sviluppi. Il progetto è ora disponibile su GitHub per le parti interessate che desiderano accedervi e utilizzarlo: https://github.com/PJLab-ADG/GPT4V-AD-Exploration
English
The pursuit of autonomous driving technology hinges on the sophisticated
integration of perception, decision-making, and control systems. Traditional
approaches, both data-driven and rule-based, have been hindered by their
inability to grasp the nuance of complex driving environments and the
intentions of other road users. This has been a significant bottleneck,
particularly in the development of common sense reasoning and nuanced scene
understanding necessary for safe and reliable autonomous driving. The advent of
Visual Language Models (VLM) represents a novel frontier in realizing fully
autonomous vehicle driving. This report provides an exhaustive evaluation of
the latest state-of-the-art VLM, \modelnamefull, and its application in
autonomous driving scenarios. We explore the model's abilities to understand
and reason about driving scenes, make decisions, and ultimately act in the
capacity of a driver. Our comprehensive tests span from basic scene recognition
to complex causal reasoning and real-time decision-making under varying
conditions. Our findings reveal that \modelname demonstrates superior
performance in scene understanding and causal reasoning compared to existing
autonomous systems. It showcases the potential to handle out-of-distribution
scenarios, recognize intentions, and make informed decisions in real driving
contexts. However, challenges remain, particularly in direction discernment,
traffic light recognition, vision grounding, and spatial reasoning tasks. These
limitations underscore the need for further research and development. Project
is now available on GitHub for interested parties to access and utilize:
https://github.com/PJLab-ADG/GPT4V-AD-Exploration