ChatPaper.aiChatPaper

Robusto-1 Dataset: Vergelijking tussen mensen en VLMs bij echte out-of-distribution VQA voor autonoom rijden uit Peru

Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru

March 10, 2025
Auteurs: Dunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza
cs.AI

Samenvatting

Naarmate multimodale fundamentele modellen experimenteel worden ingezet in zelfrijdende auto's, is een redelijke vraag die we ons stellen: hoe vergelijkbaar reageren deze systemen met mensen in bepaalde rijomstandigheden – vooral in situaties die buiten de distributie vallen? Om dit te bestuderen, hebben we de Robusto-1 dataset gecreëerd, die gebruik maakt van dashcam-videogegevens uit Peru, een land met een van de meest agressieve bestuurders ter wereld, een hoge verkeersindex en een hoog aandeel van bizarre tot niet-bizarre straatobjecten die waarschijnlijk nooit in de training zijn gezien. In het bijzonder, om op een cognitief niveau voorlopig te testen hoe goed fundamentele visuele taalmodellen (VLMs) zich verhouden tot mensen in rijomstandigheden, stappen we af van begrenzingsvakken, segmentatiekaarten, bezettingskaarten of trajectschattingen naar multimodale visuele vraag-antwoordtaken (VQA), waarbij we zowel mensen als machines vergelijken via een populaire methode in systeemneurowetenschappen, bekend als Representational Similarity Analysis (RSA). Afhankelijk van het type vragen dat we stellen en de antwoorden die deze systemen geven, zullen we laten zien in welke gevallen VLMs en mensen convergeren of divergeren, wat ons in staat stelt hun cognitieve uitlijning te onderzoeken. We ontdekken dat de mate van uitlijning aanzienlijk varieert afhankelijk van het type vragen dat aan elk type systeem wordt gesteld (mensen versus VLMs), wat een kloof in hun uitlijning benadrukt.
English
As multimodal foundational models start being deployed experimentally in Self-Driving cars, a reasonable question we ask ourselves is how similar to humans do these systems respond in certain driving situations -- especially those that are out-of-distribution? To study this, we create the Robusto-1 dataset that uses dashcam video data from Peru, a country with one of the worst (aggressive) drivers in the world, a high traffic index, and a high ratio of bizarre to non-bizarre street objects likely never seen in training. In particular, to preliminarly test at a cognitive level how well Foundational Visual Language Models (VLMs) compare to Humans in Driving, we move away from bounding boxes, segmentation maps, occupancy maps or trajectory estimation to multi-modal Visual Question Answering (VQA) comparing both humans and machines through a popular method in systems neuroscience known as Representational Similarity Analysis (RSA). Depending on the type of questions we ask and the answers these systems give, we will show in what cases do VLMs and Humans converge or diverge allowing us to probe on their cognitive alignment. We find that the degree of alignment varies significantly depending on the type of questions asked to each type of system (Humans vs VLMs), highlighting a gap in their alignment.

Summary

AI-Generated Summary

PDF112March 12, 2025