Robusto-2: Evaluación comparativa de humanos y VLMs para conducción autónoma en Lima y Nueva York

Resumen

A medida que los vehículos autónomos continúan expandiéndose internacionalmente y emplean sistemas multimodales, como los VLM, como columna vertebral cognitiva de sus modelos de acción, ¿qué tan bien se generalizarán estos sistemas en entornos nuevos, en particular en escenarios de casos extremos fuera de distribución (OOD) en nuevas geografías? En este artículo, estudiamos esta pregunta abierta mediante un análisis factorial completo con conductores humanos de Lima, conductores humanos de Nueva York y VLM, mostrándoles grabaciones de dashcam recolectadas en Lima y Nueva York, y planteándoles diversas preguntas bajo un paradigma de Respuesta a Preguntas Visuales (VQA). En particular, seleccionamos estas dos ciudades por ser ubicaciones de conducción altamente desafiantes donde ninguna empresa de vehículos autónomos opera actualmente, y formulamos preguntas que abarcan cuatro categorías: factuales, valoraciones, contrafactuales y razonamiento. Encontramos que los humanos y los VLM divergen en sus respuestas, aunque esto está modulado por el tipo de preguntas formuladas, y que los humanos responden de manera similar independientemente de su lugar de origen (Lima/NYC). Para nuestra sorpresa, no encontramos una diferencia significativa en las respuestas (humanos o VLM) que estuviera modulada por la geografía, probablemente debido a su naturaleza altamente fuera de distribución. Nuestro conjunto de datos está disponible en: https://huggingface.co/datasets/Artificio/robusto-2

English

As Self-Driving Cars continue to expand internationally and use multi-modal systems such as VLMs as a cognitive backbone for their Action models; how well will these systems generalize in new settings, in particular out-of-distribution (OOD) edge-case scenarios in new geographies? In this paper, we study this open question by providing a full factorial analysis with human drivers of Lima, human drivers from New York City, and VLMs and showing them dashcam footage collected from Lima and New York City -- prompting them with a variety of questions under a Visual Question Answering (VQA) paradigm. In particular, we pick these two cities as they are highly challenging driving locations where no Self-Driving Car company currently operates in, and ask questions that span 4 categories: Factual, Ratings, Counterfactual and Reasoning. We find that Humans and VLMs diverge in their responses -- though this is modulated by the type of questions asked, and that Humans answer similarly independent of where they are from (Lima/NYC). To our surprise, we did not find a strong difference in terms of answers (Humans or VLMs) that was modulated by geography, likely due to their high out-of-distribution nature. Our dataset is available at: https://huggingface.co/datasets/Artificio/robusto-2