Jeu de données Robusto-1 : Comparaison entre humains et modèles de langage visuel sur des questions-réponses en conduite autonome hors distribution réelle au Pérou

papers.abstract

Alors que les modèles fondationnels multimodaux commencent à être déployés expérimentalement dans les voitures autonomes, une question raisonnable que nous nous posons est à quel point ces systèmes réagissent de manière similaire aux humains dans certaines situations de conduite — en particulier celles qui sont hors distribution. Pour étudier cela, nous créons le jeu de données Robusto-1, qui utilise des vidéos de dashcam provenant du Pérou, un pays comptant parmi les conducteurs les plus agressifs au monde, un indice de trafic élevé et un ratio important d'objets de rue bizarres par rapport aux non-bizarres, probablement jamais vus pendant l'entraînement. En particulier, pour tester préliminairement au niveau cognitif à quel point les modèles fondationnels visuels et linguistiques (VLMs) se comparent aux humains en conduite, nous nous éloignons des boîtes englobantes, des cartes de segmentation, des cartes d'occupation ou de l'estimation de trajectoire pour nous concentrer sur le question-réponse visuel multimodal (VQA), comparant à la fois les humains et les machines à travers une méthode populaire en neurosciences des systèmes connue sous le nom d'Analyse de Similarité Représentationnelle (RSA). Selon le type de questions que nous posons et les réponses que ces systèmes donnent, nous montrerons dans quels cas les VLMs et les humains convergent ou divergent, nous permettant d'explorer leur alignement cognitif. Nous constatons que le degré d'alignement varie considérablement en fonction du type de questions posées à chaque type de système (Humains vs VLMs), mettant en évidence un écart dans leur alignement.

English

As multimodal foundational models start being deployed experimentally in Self-Driving cars, a reasonable question we ask ourselves is how similar to humans do these systems respond in certain driving situations -- especially those that are out-of-distribution? To study this, we create the Robusto-1 dataset that uses dashcam video data from Peru, a country with one of the worst (aggressive) drivers in the world, a high traffic index, and a high ratio of bizarre to non-bizarre street objects likely never seen in training. In particular, to preliminarly test at a cognitive level how well Foundational Visual Language Models (VLMs) compare to Humans in Driving, we move away from bounding boxes, segmentation maps, occupancy maps or trajectory estimation to multi-modal Visual Question Answering (VQA) comparing both humans and machines through a popular method in systems neuroscience known as Representational Similarity Analysis (RSA). Depending on the type of questions we ask and the answers these systems give, we will show in what cases do VLMs and Humans converge or diverge allowing us to probe on their cognitive alignment. We find that the degree of alignment varies significantly depending on the type of questions asked to each type of system (Humans vs VLMs), highlighting a gap in their alignment.

Jeu de données Robusto-1 : Comparaison entre humains et modèles de langage visuel sur des questions-réponses en conduite autonome hors distribution réelle au Pérou

Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru

papers.abstract

Support