ChatPaper.aiChatPaper

Conjunto de Dados Robusto-1: Comparando Humanos e VLMs em VQA de Condução Autônoma Fora da Distribuição no Peru

Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru

March 10, 2025
Autores: Dunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza
cs.AI

Resumo

À medida que os modelos fundamentais multimodais começam a ser implantados experimentalmente em carros autônomos, uma questão razoável que nos perguntamos é o quão semelhantes a humanos esses sistemas respondem em certas situações de direção — especialmente aquelas que estão fora da distribuição de treinamento? Para estudar isso, criamos o conjunto de dados Robusto-1, que utiliza vídeos de câmeras de painel do Peru, um país com um dos piores (e mais agressivos) motoristas do mundo, um alto índice de tráfego e uma alta proporção de objetos de rua bizarros em comparação com os não bizarros, que provavelmente nunca foram vistos durante o treinamento. Em particular, para testar preliminarmente, em um nível cognitivo, o quão bem os Modelos de Linguagem Visual Fundamentais (VLMs) se comparam aos humanos na direção, nos afastamos de caixas delimitadoras, mapas de segmentação, mapas de ocupação ou estimativas de trajetória para focar na Resposta a Perguntas Visuais Multimodais (VQA), comparando tanto humanos quanto máquinas por meio de um método popular em neurociência de sistemas conhecido como Análise de Similaridade Representacional (RSA). Dependendo do tipo de perguntas que fazemos e das respostas que esses sistemas fornecem, mostraremos em quais casos os VLMs e os humanos convergem ou divergem, permitindo-nos investigar seu alinhamento cognitivo. Descobrimos que o grau de alinhamento varia significativamente dependendo do tipo de perguntas feitas a cada tipo de sistema (humanos vs. VLMs), destacando uma lacuna em seu alinhamento.
English
As multimodal foundational models start being deployed experimentally in Self-Driving cars, a reasonable question we ask ourselves is how similar to humans do these systems respond in certain driving situations -- especially those that are out-of-distribution? To study this, we create the Robusto-1 dataset that uses dashcam video data from Peru, a country with one of the worst (aggressive) drivers in the world, a high traffic index, and a high ratio of bizarre to non-bizarre street objects likely never seen in training. In particular, to preliminarly test at a cognitive level how well Foundational Visual Language Models (VLMs) compare to Humans in Driving, we move away from bounding boxes, segmentation maps, occupancy maps or trajectory estimation to multi-modal Visual Question Answering (VQA) comparing both humans and machines through a popular method in systems neuroscience known as Representational Similarity Analysis (RSA). Depending on the type of questions we ask and the answers these systems give, we will show in what cases do VLMs and Humans converge or diverge allowing us to probe on their cognitive alignment. We find that the degree of alignment varies significantly depending on the type of questions asked to each type of system (Humans vs VLMs), highlighting a gap in their alignment.

Summary

AI-Generated Summary

PDF112March 12, 2025