Robusto-2 : Évaluation comparative des humains et des VLMs pour la conduite autonome à Lima et à New York

Résumé

Alors que les voitures autonomes continuent de se déployer à l’international et d’utiliser des systèmes multimodaux tels que les VLMs comme base cognitive de leurs modèles d’action, dans quelle mesure ces systèmes se généraliseront-ils à de nouveaux environnements, en particulier dans des scénarios limites hors distribution (OOD) dans de nouvelles régions ? Dans cet article, nous étudions cette question ouverte en proposant une analyse factorielle complète avec des conducteurs humains de Lima, des conducteurs humains de New York et des VLMs, en leur montrant des images de dashcam collectées à Lima et à New York — et en les interrogeant via une variété de questions dans le cadre d’un paradigme de réponse à des questions visuelles (VQA). Nous choisissons ces deux villes car ce sont des lieux de conduite particulièrement difficiles où aucune entreprise de voitures autonomes n’opère actuellement, et nous posons des questions couvrant quatre catégories : factuelles, évaluations, contrefactuelles et raisonnement. Nous constatons que les humains et les VLMs divergent dans leurs réponses — bien que cela soit modulé par le type de questions posées, et que les humains répondent de manière similaire indépendamment de leur origine (Lima/NYC). À notre surprise, nous n’avons pas observé de différence marquée dans les réponses (humaines ou des VLMs) liée à la géographie, probablement en raison de leur nature fortement hors distribution. Notre jeu de données est disponible à l’adresse : https://huggingface.co/datasets/Artificio/robusto-2

English

As Self-Driving Cars continue to expand internationally and use multi-modal systems such as VLMs as a cognitive backbone for their Action models; how well will these systems generalize in new settings, in particular out-of-distribution (OOD) edge-case scenarios in new geographies? In this paper, we study this open question by providing a full factorial analysis with human drivers of Lima, human drivers from New York City, and VLMs and showing them dashcam footage collected from Lima and New York City -- prompting them with a variety of questions under a Visual Question Answering (VQA) paradigm. In particular, we pick these two cities as they are highly challenging driving locations where no Self-Driving Car company currently operates in, and ask questions that span 4 categories: Factual, Ratings, Counterfactual and Reasoning. We find that Humans and VLMs diverge in their responses -- though this is modulated by the type of questions asked, and that Humans answer similarly independent of where they are from (Lima/NYC). To our surprise, we did not find a strong difference in terms of answers (Humans or VLMs) that was modulated by geography, likely due to their high out-of-distribution nature. Our dataset is available at: https://huggingface.co/datasets/Artificio/robusto-2