ChatPaper.aiChatPaper

Robusto-1 데이터셋: 페루의 실제 분포 외 자율주행 VQA에서 인간과 시각언어모델 비교

Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru

March 10, 2025
저자: Dunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza
cs.AI

초록

멀티모달 기초 모델이 자율주행 자동차에 실험적으로 배포되기 시작하면서, 우리가 스스로에게 던지는 합리적인 질문은 이러한 시스템이 특정 운전 상황에서, 특히 훈련 데이터 분포를 벗어난 상황에서 인간과 얼마나 유사하게 반응하는가 하는 것이다. 이를 연구하기 위해 우리는 세계에서 가장 공격적인 운전자, 높은 교통 지수, 그리고 훈련 중에 본 적이 없을 법한 기이한 도로 물체의 높은 비율을 가진 페루의 대시캠 비디오 데이터를 사용한 Robusto-1 데이터셋을 구축했다. 특히, 기초 시각 언어 모델(VLMs)이 운전 상황에서 인간과 얼마나 잘 비교되는지를 인지적 수준에서 예비적으로 테스트하기 위해, 우리는 바운딩 박스, 세그멘테이션 맵, 점유 맵 또는 궤적 추정에서 벗어나 멀티모달 시각 질의 응답(VQA)을 통해 인간과 기계를 비교한다. 이를 위해 시스템 신경과학에서 널리 사용되는 표현 유사성 분석(RSA) 방법을 활용한다. 우리가 묻는 질문의 유형과 이러한 시스템이 제공하는 답변에 따라, VLMs와 인간이 수렴하거나 분기하는 경우를 보여줌으로써 그들의 인지적 정렬을 탐구할 수 있다. 우리는 각 유형의 시스템(인간 대 VLMs)에 묻는 질문의 유형에 따라 정렬 정도가 크게 달라지는 것을 발견했으며, 이는 그들의 정렬 간에 간극이 있음을 강조한다.
English
As multimodal foundational models start being deployed experimentally in Self-Driving cars, a reasonable question we ask ourselves is how similar to humans do these systems respond in certain driving situations -- especially those that are out-of-distribution? To study this, we create the Robusto-1 dataset that uses dashcam video data from Peru, a country with one of the worst (aggressive) drivers in the world, a high traffic index, and a high ratio of bizarre to non-bizarre street objects likely never seen in training. In particular, to preliminarly test at a cognitive level how well Foundational Visual Language Models (VLMs) compare to Humans in Driving, we move away from bounding boxes, segmentation maps, occupancy maps or trajectory estimation to multi-modal Visual Question Answering (VQA) comparing both humans and machines through a popular method in systems neuroscience known as Representational Similarity Analysis (RSA). Depending on the type of questions we ask and the answers these systems give, we will show in what cases do VLMs and Humans converge or diverge allowing us to probe on their cognitive alignment. We find that the degree of alignment varies significantly depending on the type of questions asked to each type of system (Humans vs VLMs), highlighting a gap in their alignment.

Summary

AI-Generated Summary

PDF112March 12, 2025