Les VLM sont-ils prêts pour la conduite autonome ? Une étude empirique des perspectives de fiabilité, de données et de métriques.
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
January 7, 2025
Auteurs: Shaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan
cs.AI
Résumé
Les récentes avancées dans les Modèles Vision-Langage (VLM) ont suscité un intérêt pour leur utilisation dans la conduite autonome, notamment pour générer des décisions de conduite interprétables à travers un langage naturel. Cependant, l'hypothèse selon laquelle les VLM fournissent intrinsèquement des explications visuellement ancrées, fiables et interprétables pour la conduite reste largement inexplorée. Pour combler cette lacune, nous introduisons DriveBench, un ensemble de données de référence conçu pour évaluer la fiabilité des VLM à travers 17 configurations (entrées propres, corrompues et texte seul), englobant 19 200 images, 20 498 paires question-réponse, trois types de questions, quatre tâches de conduite principales, et un total de 12 VLM populaires. Nos résultats révèlent que les VLM génèrent souvent des réponses plausibles issues de connaissances générales ou de repères textuels plutôt que d'un ancrage visuel réel, surtout en présence d'entrées visuelles dégradées ou manquantes. Ce comportement, dissimulé par des déséquilibres dans les ensembles de données et des métriques d'évaluation insuffisantes, présente des risques significatifs dans des scénarios critiques en termes de sécurité tels que la conduite autonome. Nous observons en outre que les VLM rencontrent des difficultés avec le raisonnement multi-modal et montrent une sensibilité accrue aux corruptions des entrées, entraînant des incohérences de performance. Pour relever ces défis, nous proposons des métriques d'évaluation affinées qui privilégient un ancrage visuel robuste et une compréhension multi-modale. De plus, nous soulignons le potentiel d'exploiter la conscience des corruptions des VLM pour améliorer leur fiabilité, offrant ainsi une feuille de route pour le développement de systèmes de prise de décision plus fiables et interprétables dans des contextes de conduite autonome du monde réel. L'ensemble d'outils de référence est accessible au public.
English
Recent advancements in Vision-Language Models (VLMs) have sparked interest in
their use for autonomous driving, particularly in generating interpretable
driving decisions through natural language. However, the assumption that VLMs
inherently provide visually grounded, reliable, and interpretable explanations
for driving remains largely unexamined. To address this gap, we introduce
DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17
settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames,
20,498 question-answer pairs, three question types, four mainstream driving
tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often
generate plausible responses derived from general knowledge or textual cues
rather than true visual grounding, especially under degraded or missing visual
inputs. This behavior, concealed by dataset imbalances and insufficient
evaluation metrics, poses significant risks in safety-critical scenarios like
autonomous driving. We further observe that VLMs struggle with multi-modal
reasoning and display heightened sensitivity to input corruptions, leading to
inconsistencies in performance. To address these challenges, we propose refined
evaluation metrics that prioritize robust visual grounding and multi-modal
understanding. Additionally, we highlight the potential of leveraging VLMs'
awareness of corruptions to enhance their reliability, offering a roadmap for
developing more trustworthy and interpretable decision-making systems in
real-world autonomous driving contexts. The benchmark toolkit is publicly
accessible.Summary
AI-Generated Summary