Conjunto de datos Robusto-1: Comparación entre humanos y modelos de lenguaje visual en preguntas y respuestas visuales de conducción autónoma fuera de distribución en Perú
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru
March 10, 2025
Autores: Dunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza
cs.AI
Resumen
A medida que los modelos fundacionales multimodales comienzan a implementarse experimentalmente en vehículos autónomos, una pregunta razonable que nos hacemos es cuán similares son estas respuestas a las de los humanos en ciertas situaciones de conducción, especialmente aquellas que están fuera de distribución. Para estudiar esto, creamos el conjunto de datos Robusto-1, que utiliza datos de video de cámaras de tablero de Perú, un país con uno de los conductores más agresivos del mundo, un alto índice de tráfico y una proporción elevada de objetos callejeros extraños en comparación con los comunes, que probablemente nunca se hayan visto durante el entrenamiento. En particular, para probar preliminarmente a nivel cognitivo qué tan bien se comparan los Modelos de Lenguaje Visual Fundacionales (VLMs) con los humanos en la conducción, nos alejamos de los cuadros delimitadores, mapas de segmentación, mapas de ocupación o estimación de trayectorias, y nos enfocamos en la Respuesta Visual a Preguntas (VQA) multimodal, comparando tanto a humanos como a máquinas mediante un método popular en neurociencia de sistemas conocido como Análisis de Similitud Representacional (RSA). Dependiendo del tipo de preguntas que hagamos y las respuestas que den estos sistemas, mostraremos en qué casos los VLMs y los humanos convergen o divergen, lo que nos permitirá explorar su alineación cognitiva. Encontramos que el grado de alineación varía significativamente según el tipo de preguntas que se hagan a cada tipo de sistema (humanos vs. VLMs), destacando una brecha en su alineación.
English
As multimodal foundational models start being deployed experimentally in
Self-Driving cars, a reasonable question we ask ourselves is how similar to
humans do these systems respond in certain driving situations -- especially
those that are out-of-distribution? To study this, we create the Robusto-1
dataset that uses dashcam video data from Peru, a country with one of the worst
(aggressive) drivers in the world, a high traffic index, and a high ratio of
bizarre to non-bizarre street objects likely never seen in training. In
particular, to preliminarly test at a cognitive level how well Foundational
Visual Language Models (VLMs) compare to Humans in Driving, we move away from
bounding boxes, segmentation maps, occupancy maps or trajectory estimation to
multi-modal Visual Question Answering (VQA) comparing both humans and machines
through a popular method in systems neuroscience known as Representational
Similarity Analysis (RSA). Depending on the type of questions we ask and the
answers these systems give, we will show in what cases do VLMs and Humans
converge or diverge allowing us to probe on their cognitive alignment. We find
that the degree of alignment varies significantly depending on the type of
questions asked to each type of system (Humans vs VLMs), highlighting a gap in
their alignment.Summary
AI-Generated Summary