Dataset Robusto-1: Confronto tra Umani e Modelli Linguistici Visivi su Domande e Risposte Visuali per Guida Autonoma fuori Distribuzione dal Perù
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru
March 10, 2025
Autori: Dunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza
cs.AI
Abstract
Man mano che i modelli fondazionali multimodali iniziano a essere implementati sperimentalmente nelle auto a guida autonoma, una domanda ragionevole che ci poniamo è quanto questi sistemi rispondano in modo simile agli esseri umani in determinate situazioni di guida, specialmente quelle che sono fuori distribuzione? Per studiare questo, abbiamo creato il dataset Robusto-1, che utilizza dati video da dashcam provenienti dal Perù, un paese con uno dei peggiori (aggressivi) guidatori al mondo, un alto indice di traffico e un elevato rapporto di oggetti stradali bizzarri rispetto a quelli non bizzarri, probabilmente mai visti durante l'addestramento. In particolare, per testare preliminarmente a livello cognitivo quanto bene i Modelli Fondazionali di Linguaggio Visivo (VLMs) si confrontano con gli esseri umani nella guida, ci allontaniamo dalle bounding box, dalle mappe di segmentazione, dalle mappe di occupazione o dalla stima delle traiettorie per passare al Visual Question Answering (VQA) multimodale, confrontando sia gli esseri umani che le macchine attraverso un metodo popolare nella neuroscienza dei sistemi noto come Analisi di Similarità Rappresentazionale (RSA). A seconda del tipo di domande che poniamo e delle risposte che questi sistemi forniscono, mostreremo in quali casi i VLMs e gli esseri umani convergono o divergono, permettendoci di indagare sul loro allineamento cognitivo. Troviamo che il grado di allineamento varia significativamente a seconda del tipo di domande poste a ciascun tipo di sistema (esseri umani vs VLMs), evidenziando un divario nel loro allineamento.
English
As multimodal foundational models start being deployed experimentally in
Self-Driving cars, a reasonable question we ask ourselves is how similar to
humans do these systems respond in certain driving situations -- especially
those that are out-of-distribution? To study this, we create the Robusto-1
dataset that uses dashcam video data from Peru, a country with one of the worst
(aggressive) drivers in the world, a high traffic index, and a high ratio of
bizarre to non-bizarre street objects likely never seen in training. In
particular, to preliminarly test at a cognitive level how well Foundational
Visual Language Models (VLMs) compare to Humans in Driving, we move away from
bounding boxes, segmentation maps, occupancy maps or trajectory estimation to
multi-modal Visual Question Answering (VQA) comparing both humans and machines
through a popular method in systems neuroscience known as Representational
Similarity Analysis (RSA). Depending on the type of questions we ask and the
answers these systems give, we will show in what cases do VLMs and Humans
converge or diverge allowing us to probe on their cognitive alignment. We find
that the degree of alignment varies significantly depending on the type of
questions asked to each type of system (Humans vs VLMs), highlighting a gap in
their alignment.