ChatPaper.aiChatPaper

Robusto-1データセット:ペルーにおける実世界の分布外データを用いた自律運転VQAにおける人間と視覚言語モデルの比較

Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru

March 10, 2025
著者: Dunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza
cs.AI

要旨

マルチモーダル基盤モデルが自動運転車に実験的に導入され始める中、私たちが自問する合理的な疑問は、これらのシステムが特定の運転状況、特に分布外の状況において、人間とどの程度似た反応を示すかということです。これを研究するため、私たちはRobusto-1データセットを作成しました。このデータセットは、世界で最も攻撃的なドライバーがいる国の一つであり、交通指数が高く、訓練中に見たことがないような奇妙な街路物体の比率が高いペルーのダッシュカム映像データを使用しています。特に、基盤視覚言語モデル(VLM)が運転において人間とどの程度比較できるかを認知レベルで予備的にテストするため、バウンディングボックス、セグメンテーションマップ、占有マップ、軌道推定から離れ、マルチモーダル視覚質問応答(VQA)を用いて、システム神経科学で一般的な表現類似性分析(RSA)を通じて人間と機械を比較します。私たちが尋ねる質問の種類とこれらのシステムが与える回答に応じて、VLMと人間がどの場合に収束または分岐するかを示し、それらの認知的な整合性を探ることができます。私たちは、各システム(人間対VLM)に尋ねる質問の種類によって整合性の度合いが大きく異なることを発見し、それらの整合性におけるギャップを浮き彫りにしました。
English
As multimodal foundational models start being deployed experimentally in Self-Driving cars, a reasonable question we ask ourselves is how similar to humans do these systems respond in certain driving situations -- especially those that are out-of-distribution? To study this, we create the Robusto-1 dataset that uses dashcam video data from Peru, a country with one of the worst (aggressive) drivers in the world, a high traffic index, and a high ratio of bizarre to non-bizarre street objects likely never seen in training. In particular, to preliminarly test at a cognitive level how well Foundational Visual Language Models (VLMs) compare to Humans in Driving, we move away from bounding boxes, segmentation maps, occupancy maps or trajectory estimation to multi-modal Visual Question Answering (VQA) comparing both humans and machines through a popular method in systems neuroscience known as Representational Similarity Analysis (RSA). Depending on the type of questions we ask and the answers these systems give, we will show in what cases do VLMs and Humans converge or diverge allowing us to probe on their cognitive alignment. We find that the degree of alignment varies significantly depending on the type of questions asked to each type of system (Humans vs VLMs), highlighting a gap in their alignment.

Summary

AI-Generated Summary

PDF112March 12, 2025