Jeu de données Robusto-1 : Comparaison entre humains et modèles de langage visuel sur des questions-réponses en conduite autonome hors distribution réelle au Pérou
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru
March 10, 2025
Auteurs: Dunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza
cs.AI
Résumé
Alors que les modèles fondationnels multimodaux commencent à être déployés expérimentalement dans les voitures autonomes, une question raisonnable que nous nous posons est à quel point ces systèmes réagissent de manière similaire aux humains dans certaines situations de conduite — en particulier celles qui sont hors distribution. Pour étudier cela, nous créons le jeu de données Robusto-1, qui utilise des vidéos de dashcam provenant du Pérou, un pays comptant parmi les conducteurs les plus agressifs au monde, un indice de trafic élevé et un ratio important d'objets de rue bizarres par rapport aux non-bizarres, probablement jamais vus pendant l'entraînement. En particulier, pour tester préliminairement au niveau cognitif à quel point les modèles fondationnels visuels et linguistiques (VLMs) se comparent aux humains en conduite, nous nous éloignons des boîtes englobantes, des cartes de segmentation, des cartes d'occupation ou de l'estimation de trajectoire pour nous concentrer sur le question-réponse visuel multimodal (VQA), comparant à la fois les humains et les machines à travers une méthode populaire en neurosciences des systèmes connue sous le nom d'Analyse de Similarité Représentationnelle (RSA). Selon le type de questions que nous posons et les réponses que ces systèmes donnent, nous montrerons dans quels cas les VLMs et les humains convergent ou divergent, nous permettant d'explorer leur alignement cognitif. Nous constatons que le degré d'alignement varie considérablement en fonction du type de questions posées à chaque type de système (Humains vs VLMs), mettant en évidence un écart dans leur alignement.
English
As multimodal foundational models start being deployed experimentally in
Self-Driving cars, a reasonable question we ask ourselves is how similar to
humans do these systems respond in certain driving situations -- especially
those that are out-of-distribution? To study this, we create the Robusto-1
dataset that uses dashcam video data from Peru, a country with one of the worst
(aggressive) drivers in the world, a high traffic index, and a high ratio of
bizarre to non-bizarre street objects likely never seen in training. In
particular, to preliminarly test at a cognitive level how well Foundational
Visual Language Models (VLMs) compare to Humans in Driving, we move away from
bounding boxes, segmentation maps, occupancy maps or trajectory estimation to
multi-modal Visual Question Answering (VQA) comparing both humans and machines
through a popular method in systems neuroscience known as Representational
Similarity Analysis (RSA). Depending on the type of questions we ask and the
answers these systems give, we will show in what cases do VLMs and Humans
converge or diverge allowing us to probe on their cognitive alignment. We find
that the degree of alignment varies significantly depending on the type of
questions asked to each type of system (Humans vs VLMs), highlighting a gap in
their alignment.Summary
AI-Generated Summary