ChatPaper.aiChatPaper

Zijn VLM's klaar voor autonoom rijden? Een empirische studie vanuit het betrouwbaarheids-, gegevens- en metrisch perspectief.

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

January 7, 2025
Auteurs: Shaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan
cs.AI

Samenvatting

Recente ontwikkelingen in Vision-Language Modellen (VLM's) hebben interesse gewekt in hun gebruik voor autonoom rijden, met name bij het genereren van interpreteerbare rijbeslissingen via natuurlijke taal. Echter, de veronderstelling dat VLM's inherent voor visueel gefundeerde, betrouwbare en interpreteerbare verklaringen voor het rijden zorgen, blijft grotendeels ononderzocht. Om dit hiaat aan te pakken, introduceren we DriveBench, een benchmark dataset ontworpen om de betrouwbaarheid van VLM's te evalueren over 17 instellingen (schone, gecorrumpeerde en enkel tekstuele invoer), met in totaal 19.200 frames, 20.498 vraag-antwoordparen, drie soorten vragen, vier gangbare rijtaken, en in totaal 12 populaire VLM's. Onze bevindingen tonen aan dat VLM's vaak plausibele antwoorden genereren die voortkomen uit algemene kennis of tekstuele aanwijzingen in plaats van ware visuele fundering, vooral bij verslechterde of ontbrekende visuele invoer. Dit gedrag, verborgen door onevenwichtigheden in de dataset en ontoereikende evaluatiemetrics, brengt aanzienlijke risico's met zich mee in veiligheidskritieke scenario's zoals autonoom rijden. We observeren verder dat VLM's moeite hebben met multimodale redenering en een verhoogde gevoeligheid tonen voor invoercorrupties, wat leidt tot inconsistenties in prestaties. Om deze uitdagingen aan te pakken, stellen we verfijnde evaluatiemetrics voor die robuuste visuele fundering en multimodaal begrip prioriteren. Daarnaast benadrukken we het potentieel van het benutten van de bewustzijn van VLM's van corrupties om hun betrouwbaarheid te verbeteren, en bieden zo een routekaart voor het ontwikkelen van meer betrouwbare en interpreteerbare besluitvormingssystemen in real-world autonome rijcontexten. De benchmark toolkit is openbaar toegankelijk.
English
Recent advancements in Vision-Language Models (VLMs) have sparked interest in their use for autonomous driving, particularly in generating interpretable driving decisions through natural language. However, the assumption that VLMs inherently provide visually grounded, reliable, and interpretable explanations for driving remains largely unexamined. To address this gap, we introduce DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17 settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames, 20,498 question-answer pairs, three question types, four mainstream driving tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often generate plausible responses derived from general knowledge or textual cues rather than true visual grounding, especially under degraded or missing visual inputs. This behavior, concealed by dataset imbalances and insufficient evaluation metrics, poses significant risks in safety-critical scenarios like autonomous driving. We further observe that VLMs struggle with multi-modal reasoning and display heightened sensitivity to input corruptions, leading to inconsistencies in performance. To address these challenges, we propose refined evaluation metrics that prioritize robust visual grounding and multi-modal understanding. Additionally, we highlight the potential of leveraging VLMs' awareness of corruptions to enhance their reliability, offering a roadmap for developing more trustworthy and interpretable decision-making systems in real-world autonomous driving contexts. The benchmark toolkit is publicly accessible.

Summary

AI-Generated Summary

PDF282January 10, 2025