Готовы ли вариационные методы Лапласа для автономного вождения? Эмпирическое исследование с точки зрения надежности, данных и метрик.
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
January 7, 2025
Авторы: Shaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan
cs.AI
Аннотация
Недавние достижения в моделях видео-языка (VLM) вызвали интерес к их использованию для автономного вождения, особенно в создании интерпретируемых решений вождения на естественном языке. Однако предположение, что VLM по своей природе обеспечивают визуально обоснованные, надежные и интерпретируемые объяснения для вождения, остается в значительной степени неизученным. Для решения этого пробела мы представляем DriveBench, набор данных для оценки надежности VLM в 17 сценариях (чистые, поврежденные и только текстовые входы), охватывающий 19 200 кадров, 20 498 пар вопрос-ответ, три типа вопросов, четыре основных задачи вождения и в общей сложности 12 популярных VLM. Наши результаты показывают, что VLM часто генерируют правдоподобные ответы, основанные на общих знаниях или текстовых подсказках, а не на истинном визуальном обосновании, особенно при деградированных или отсутствующих визуальных входах. Это поведение, скрытое дисбалансами в наборе данных и недостаточными метриками оценки, представляет существенные риски в сценариях, связанных с безопасностью, таких как автономное вождение. Мы также наблюдаем, что VLM испытывают трудности с мультимодальным рассуждением и проявляют повышенную чувствительность к повреждениям входных данных, что приводит к несоответствиям в производительности. Для решения этих проблем мы предлагаем усовершенствованные метрики оценки, которые придают приоритет надежному визуальному обоснованию и мультимодальному пониманию. Кроме того, мы выделяем потенциал использования осведомленности VLM о повреждениях для улучшения их надежности, предлагая план развития более надежных и интерпретируемых систем принятия решений в реальных сценариях автономного вождения. Набор инструментов для оценки доступен публично.
English
Recent advancements in Vision-Language Models (VLMs) have sparked interest in
their use for autonomous driving, particularly in generating interpretable
driving decisions through natural language. However, the assumption that VLMs
inherently provide visually grounded, reliable, and interpretable explanations
for driving remains largely unexamined. To address this gap, we introduce
DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17
settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames,
20,498 question-answer pairs, three question types, four mainstream driving
tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often
generate plausible responses derived from general knowledge or textual cues
rather than true visual grounding, especially under degraded or missing visual
inputs. This behavior, concealed by dataset imbalances and insufficient
evaluation metrics, poses significant risks in safety-critical scenarios like
autonomous driving. We further observe that VLMs struggle with multi-modal
reasoning and display heightened sensitivity to input corruptions, leading to
inconsistencies in performance. To address these challenges, we propose refined
evaluation metrics that prioritize robust visual grounding and multi-modal
understanding. Additionally, we highlight the potential of leveraging VLMs'
awareness of corruptions to enhance their reliability, offering a roadmap for
developing more trustworthy and interpretable decision-making systems in
real-world autonomous driving contexts. The benchmark toolkit is publicly
accessible.Summary
AI-Generated Summary