ChatPaper.aiChatPaper

¿Están Listas las Máquinas de Aprendizaje Basadas en el Aprendizaje Profundo para la Conducción Autónoma? Un Estudio Empírico desde las Perspectivas de Fiabilidad, Datos y Métricas

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

January 7, 2025
Autores: Shaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan
cs.AI

Resumen

Los avances recientes en Modelos de Visión-Lenguaje (VLMs) han despertado interés en su uso para la conducción autónoma, especialmente en la generación de decisiones de conducción interpretables a través del lenguaje natural. Sin embargo, la suposición de que los VLMs proporcionan inherentemente explicaciones visualmente fundamentadas, confiables e interpretables para la conducción sigue siendo en gran medida no examinada. Para abordar esta brecha, presentamos DriveBench, un conjunto de datos de referencia diseñado para evaluar la fiabilidad de los VLMs en 17 configuraciones (entradas limpias, corruptas y solo texto), que abarcan 19,200 fotogramas, 20,498 pares de preguntas y respuestas, tres tipos de preguntas, cuatro tareas de conducción principales y un total de 12 VLMs populares. Nuestros hallazgos revelan que los VLMs a menudo generan respuestas plausibles derivadas de conocimientos generales o pistas textuales en lugar de un verdadero fundamento visual, especialmente bajo entradas visuales degradadas o faltantes. Este comportamiento, oculto por desequilibrios en los conjuntos de datos y métricas de evaluación insuficientes, plantea riesgos significativos en escenarios críticos de seguridad como la conducción autónoma. Además, observamos que los VLMs tienen dificultades con el razonamiento multimodal y muestran una sensibilidad elevada a las corrupciones en las entradas, lo que conduce a inconsistencias en el rendimiento. Para abordar estos desafíos, proponemos métricas de evaluación refinadas que priorizan un fundamento visual robusto y una comprensión multimodal. Además, destacamos el potencial de aprovechar la conciencia de las corrupciones de los VLMs para mejorar su fiabilidad, ofreciendo una hoja de ruta para desarrollar sistemas de toma de decisiones más confiables e interpretables en contextos reales de conducción autónoma. El conjunto de herramientas de referencia está públicamente accesible.
English
Recent advancements in Vision-Language Models (VLMs) have sparked interest in their use for autonomous driving, particularly in generating interpretable driving decisions through natural language. However, the assumption that VLMs inherently provide visually grounded, reliable, and interpretable explanations for driving remains largely unexamined. To address this gap, we introduce DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17 settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames, 20,498 question-answer pairs, three question types, four mainstream driving tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often generate plausible responses derived from general knowledge or textual cues rather than true visual grounding, especially under degraded or missing visual inputs. This behavior, concealed by dataset imbalances and insufficient evaluation metrics, poses significant risks in safety-critical scenarios like autonomous driving. We further observe that VLMs struggle with multi-modal reasoning and display heightened sensitivity to input corruptions, leading to inconsistencies in performance. To address these challenges, we propose refined evaluation metrics that prioritize robust visual grounding and multi-modal understanding. Additionally, we highlight the potential of leveraging VLMs' awareness of corruptions to enhance their reliability, offering a roadmap for developing more trustworthy and interpretable decision-making systems in real-world autonomous driving contexts. The benchmark toolkit is publicly accessible.

Summary

AI-Generated Summary

PDF282January 10, 2025