Robusto-1データセット:ペルーにおける実世界の分布外データを用いた自律運転VQAにおける人間と視覚言語モデルの比較
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru
March 10, 2025
著者: Dunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza
cs.AI
要旨
マルチモーダル基盤モデルが自動運転車に実験的に導入され始める中、私たちが自問する合理的な疑問は、これらのシステムが特定の運転状況、特に分布外の状況において、人間とどの程度似た反応を示すかということです。これを研究するため、私たちはRobusto-1データセットを作成しました。このデータセットは、世界で最も攻撃的なドライバーがいる国の一つであり、交通指数が高く、訓練中に見たことがないような奇妙な街路物体の比率が高いペルーのダッシュカム映像データを使用しています。特に、基盤視覚言語モデル(VLM)が運転において人間とどの程度比較できるかを認知レベルで予備的にテストするため、バウンディングボックス、セグメンテーションマップ、占有マップ、軌道推定から離れ、マルチモーダル視覚質問応答(VQA)を用いて、システム神経科学で一般的な表現類似性分析(RSA)を通じて人間と機械を比較します。私たちが尋ねる質問の種類とこれらのシステムが与える回答に応じて、VLMと人間がどの場合に収束または分岐するかを示し、それらの認知的な整合性を探ることができます。私たちは、各システム(人間対VLM)に尋ねる質問の種類によって整合性の度合いが大きく異なることを発見し、それらの整合性におけるギャップを浮き彫りにしました。
English
As multimodal foundational models start being deployed experimentally in
Self-Driving cars, a reasonable question we ask ourselves is how similar to
humans do these systems respond in certain driving situations -- especially
those that are out-of-distribution? To study this, we create the Robusto-1
dataset that uses dashcam video data from Peru, a country with one of the worst
(aggressive) drivers in the world, a high traffic index, and a high ratio of
bizarre to non-bizarre street objects likely never seen in training. In
particular, to preliminarly test at a cognitive level how well Foundational
Visual Language Models (VLMs) compare to Humans in Driving, we move away from
bounding boxes, segmentation maps, occupancy maps or trajectory estimation to
multi-modal Visual Question Answering (VQA) comparing both humans and machines
through a popular method in systems neuroscience known as Representational
Similarity Analysis (RSA). Depending on the type of questions we ask and the
answers these systems give, we will show in what cases do VLMs and Humans
converge or diverge allowing us to probe on their cognitive alignment. We find
that the degree of alignment varies significantly depending on the type of
questions asked to each type of system (Humans vs VLMs), highlighting a gap in
their alignment.Summary
AI-Generated Summary