Готовы ли вариационные методы Лапласа для автономного вождения? Эмпирическое исследование с точки зрения надежности, данных и метрик.

Аннотация

Недавние достижения в моделях видео-языка (VLM) вызвали интерес к их использованию для автономного вождения, особенно в создании интерпретируемых решений вождения на естественном языке. Однако предположение, что VLM по своей природе обеспечивают визуально обоснованные, надежные и интерпретируемые объяснения для вождения, остается в значительной степени неизученным. Для решения этого пробела мы представляем DriveBench, набор данных для оценки надежности VLM в 17 сценариях (чистые, поврежденные и только текстовые входы), охватывающий 19 200 кадров, 20 498 пар вопрос-ответ, три типа вопросов, четыре основных задачи вождения и в общей сложности 12 популярных VLM. Наши результаты показывают, что VLM часто генерируют правдоподобные ответы, основанные на общих знаниях или текстовых подсказках, а не на истинном визуальном обосновании, особенно при деградированных или отсутствующих визуальных входах. Это поведение, скрытое дисбалансами в наборе данных и недостаточными метриками оценки, представляет существенные риски в сценариях, связанных с безопасностью, таких как автономное вождение. Мы также наблюдаем, что VLM испытывают трудности с мультимодальным рассуждением и проявляют повышенную чувствительность к повреждениям входных данных, что приводит к несоответствиям в производительности. Для решения этих проблем мы предлагаем усовершенствованные метрики оценки, которые придают приоритет надежному визуальному обоснованию и мультимодальному пониманию. Кроме того, мы выделяем потенциал использования осведомленности VLM о повреждениях для улучшения их надежности, предлагая план развития более надежных и интерпретируемых систем принятия решений в реальных сценариях автономного вождения. Набор инструментов для оценки доступен публично.

English

Recent advancements in Vision-Language Models (VLMs) have sparked interest in their use for autonomous driving, particularly in generating interpretable driving decisions through natural language. However, the assumption that VLMs inherently provide visually grounded, reliable, and interpretable explanations for driving remains largely unexamined. To address this gap, we introduce DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17 settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames, 20,498 question-answer pairs, three question types, four mainstream driving tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often generate plausible responses derived from general knowledge or textual cues rather than true visual grounding, especially under degraded or missing visual inputs. This behavior, concealed by dataset imbalances and insufficient evaluation metrics, poses significant risks in safety-critical scenarios like autonomous driving. We further observe that VLMs struggle with multi-modal reasoning and display heightened sensitivity to input corruptions, leading to inconsistencies in performance. To address these challenges, we propose refined evaluation metrics that prioritize robust visual grounding and multi-modal understanding. Additionally, we highlight the potential of leveraging VLMs' awareness of corruptions to enhance their reliability, offering a roadmap for developing more trustworthy and interpretable decision-making systems in real-world autonomous driving contexts. The benchmark toolkit is publicly accessible.

Готовы ли вариационные методы Лапласа для автономного вождения? Эмпирическое исследование с точки зрения надежности, данных и метрик.

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

Аннотация

Support