Robusto-2: Бенчмаркинг людей и VLM для автономного вождения в Лиме и Нью-Йорке

Аннотация

По мере того как беспилотные автомобили продолжают распространяться на международном уровне и используют мультимодальные системы, такие как VLM, в качестве когнитивной основы для своих моделей действий, насколько хорошо эти системы смогут обобщаться в новых условиях, особенно в сценариях с выбросами за пределы распределения (OOD) в новых географических регионах? В данной работе мы исследуем этот открытый вопрос, проводя полнофакторный анализ с участием водителей из Лимы, водителей из Нью-Йорка и VLM, демонстрируя им видеозаписи с приборных камер, собранные в Лиме и Нью-Йорке, и задавая им различные вопросы в рамках парадигмы визуального ответа на вопросы (VQA). В частности, мы выбрали эти два города, так как они представляют собой чрезвычайно сложные места для вождения, где в настоящее время не работает ни одна компания по производству беспилотных автомобилей, и задаем вопросы, охватывающие четыре категории: фактические, рейтинговые, контрфактические и логические. Мы обнаружили, что люди и VLM расходятся в своих ответах, хотя это зависит от типа задаваемых вопросов, и что люди отвечают одинаково независимо от того, откуда они родом (Лима/Нью-Йорк). К нашему удивлению, мы не обнаружили сильного различия в ответах (людей или VLM), обусловленного географией, вероятно, из-за их высокой выбросности за пределы распределения. Наш набор данных доступен по адресу: https://huggingface.co/datasets/Artificio/robusto-2

English

As Self-Driving Cars continue to expand internationally and use multi-modal systems such as VLMs as a cognitive backbone for their Action models; how well will these systems generalize in new settings, in particular out-of-distribution (OOD) edge-case scenarios in new geographies? In this paper, we study this open question by providing a full factorial analysis with human drivers of Lima, human drivers from New York City, and VLMs and showing them dashcam footage collected from Lima and New York City -- prompting them with a variety of questions under a Visual Question Answering (VQA) paradigm. In particular, we pick these two cities as they are highly challenging driving locations where no Self-Driving Car company currently operates in, and ask questions that span 4 categories: Factual, Ratings, Counterfactual and Reasoning. We find that Humans and VLMs diverge in their responses -- though this is modulated by the type of questions asked, and that Humans answer similarly independent of where they are from (Lima/NYC). To our surprise, we did not find a strong difference in terms of answers (Humans or VLMs) that was modulated by geography, likely due to their high out-of-distribution nature. Our dataset is available at: https://huggingface.co/datasets/Artificio/robusto-2