Sind VLMs bereit für autonomes Fahren? Eine empirische Studie aus der Zuverlässigkeits-, Daten- und Metrikperspektive
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
January 7, 2025
Autoren: Shaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei Vision-Language-Modellen (VLMs) Interesse an ihrer Verwendung für autonomes Fahren geweckt, insbesondere bei der Generierung interpretierbarer Fahrentscheidungen durch natürliche Sprache. Die Annahme, dass VLMs von Natur aus visuell fundierte, zuverlässige und interpretierbare Erklärungen für das Fahren liefern, bleibt jedoch weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir DriveBench vor, einen Benchmark-Datensatz, der entwickelt wurde, um die Zuverlässigkeit von VLMs in 17 Einstellungen (saubere, korrupte und nur-Text-Eingaben) zu bewerten. Dies umfasst 19.200 Frames, 20.498 Frage-Antwort-Paare, drei Fragetypen, vier gängige Fahraufgaben und insgesamt 12 beliebte VLMs. Unsere Ergebnisse zeigen, dass VLMs oft plausible Antworten generieren, die aus allgemeinem Wissen oder textuellen Hinweisen abgeleitet sind, anstatt aus einer echten visuellen Verankerung, insbesondere bei degradierten oder fehlenden visuellen Eingaben. Dieses Verhalten, das durch Datensatz-Ungleichgewichte und unzureichende Bewertungsmetriken verdeckt wird, birgt erhebliche Risiken in sicherheitskritischen Szenarien wie dem autonomen Fahren. Wir stellen weiterhin fest, dass VLMs Schwierigkeiten mit multimodalem Denken haben und eine erhöhte Empfindlichkeit gegenüber Eingabekorruptionen zeigen, was zu Leistungsinkonsistenzen führt. Um diesen Herausforderungen zu begegnen, schlagen wir verfeinerte Bewertungsmetriken vor, die eine robuste visuelle Verankerung und multimodales Verständnis priorisieren. Darüber hinaus heben wir das Potenzial hervor, die Kenntnis von Korruptionen bei VLMs zu nutzen, um ihre Zuverlässigkeit zu verbessern, und bieten einen Fahrplan für die Entwicklung vertrauenswürdigerer und interpretierbarer Entscheidungssysteme in realen autonomen Fahrszenarien. Das Benchmark-Toolkit ist öffentlich zugänglich.
English
Recent advancements in Vision-Language Models (VLMs) have sparked interest in
their use for autonomous driving, particularly in generating interpretable
driving decisions through natural language. However, the assumption that VLMs
inherently provide visually grounded, reliable, and interpretable explanations
for driving remains largely unexamined. To address this gap, we introduce
DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17
settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames,
20,498 question-answer pairs, three question types, four mainstream driving
tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often
generate plausible responses derived from general knowledge or textual cues
rather than true visual grounding, especially under degraded or missing visual
inputs. This behavior, concealed by dataset imbalances and insufficient
evaluation metrics, poses significant risks in safety-critical scenarios like
autonomous driving. We further observe that VLMs struggle with multi-modal
reasoning and display heightened sensitivity to input corruptions, leading to
inconsistencies in performance. To address these challenges, we propose refined
evaluation metrics that prioritize robust visual grounding and multi-modal
understanding. Additionally, we highlight the potential of leveraging VLMs'
awareness of corruptions to enhance their reliability, offering a roadmap for
developing more trustworthy and interpretable decision-making systems in
real-world autonomous driving contexts. The benchmark toolkit is publicly
accessible.Summary
AI-Generated Summary