Robusto-2: Benchmarking van mensen en VLMs voor autonoom rijden in Lima en New York City

Samenvatting

Nu zelfrijdende auto's internationaal blijven uitbreiden en multimodale systemen zoals VLM's gebruiken als cognitieve ruggengraat voor hun actiemodellen, hoe goed zullen deze systemen dan generaliseren in nieuwe omgevingen, met name in out-of-distribution (OOD) randgevallen in nieuwe geografische gebieden? In dit artikel onderzoeken we deze open vraag door een volledige factoriële analyse uit te voeren met menselijke bestuurders uit Lima, menselijke bestuurders uit New York City, en VLM's, waarbij we hen dashcambeelden tonen die zijn verzameld in Lima en New York City – en hen vragen stellen volgens een Visuele Vraagbeantwoording (VQA)-paradigma. We kiezen specifiek voor deze twee steden omdat het zeer uitdagende rijlocaties zijn waar momenteel geen zelfrijdende-autobedrijf actief is, en stellen vragen die vallen onder vier categorieën: Feitelijk, Beoordelingen, Contrafactueel en Redeneren. We vinden dat mensen en VLM's verschillen in hun antwoorden – hoewel dit wordt gemoduleerd door het type vragen, en dat mensen vergelijkbaar antwoorden ongeacht waar ze vandaan komen (Lima/NYC). Tot onze verrassing vonden we geen sterk verschil in antwoorden (mensen of VLM's) dat werd gemoduleerd door geografie, waarschijnlijk vanwege hun hoge out-of-distribution-karakter. Onze dataset is beschikbaar op: https://huggingface.co/datasets/Artificio/robusto-2

English

As Self-Driving Cars continue to expand internationally and use multi-modal systems such as VLMs as a cognitive backbone for their Action models; how well will these systems generalize in new settings, in particular out-of-distribution (OOD) edge-case scenarios in new geographies? In this paper, we study this open question by providing a full factorial analysis with human drivers of Lima, human drivers from New York City, and VLMs and showing them dashcam footage collected from Lima and New York City -- prompting them with a variety of questions under a Visual Question Answering (VQA) paradigm. In particular, we pick these two cities as they are highly challenging driving locations where no Self-Driving Car company currently operates in, and ask questions that span 4 categories: Factual, Ratings, Counterfactual and Reasoning. We find that Humans and VLMs diverge in their responses -- though this is modulated by the type of questions asked, and that Humans answer similarly independent of where they are from (Lima/NYC). To our surprise, we did not find a strong difference in terms of answers (Humans or VLMs) that was modulated by geography, likely due to their high out-of-distribution nature. Our dataset is available at: https://huggingface.co/datasets/Artificio/robusto-2