Набор данных Robusto-1: Сравнение людей и моделей визуально-языкового обучения на реальных данных вне распределения в задачах визуального вопроса-ответа для автономного вождения в Перу
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru
March 10, 2025
Авторы: Dunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza
cs.AI
Аннотация
По мере того как мультимодальные базовые модели начинают экспериментально внедряться в беспилотные автомобили, возникает закономерный вопрос: насколько похоже на человека эти системы реагируют в определенных дорожных ситуациях, особенно в тех, которые выходят за пределы их обучающих данных? Чтобы изучить это, мы создали набор данных Robusto-1, который использует видеозаписи с автомобильных камер из Перу — страны с одними из самых агрессивных водителей в мире, высоким индексом трафика и большим количеством необычных объектов на дорогах, которые, вероятно, никогда не встречались в обучающих данных. В частности, чтобы предварительно протестировать на когнитивном уровне, насколько хорошо базовые визуально-языковые модели (VLMs) сравниваются с людьми в контексте вождения, мы отходим от использования ограничивающих рамок, карт сегментации, карт занятости или оценки траекторий и переходим к мультимодальному визуальному вопросно-ответному анализу (VQA), сравнивая как людей, так и машины с помощью популярного метода в системной нейронауке, известного как анализ репрезентативного сходства (RSA). В зависимости от типа задаваемых вопросов и ответов, которые дают эти системы, мы покажем, в каких случаях VLMs и люди сходятся или расходятся, что позволяет нам исследовать их когнитивное соответствие. Мы обнаруживаем, что степень соответствия значительно варьируется в зависимости от типа вопросов, задаваемых каждому типу системы (люди vs VLMs), что подчеркивает разрыв в их согласованности.
English
As multimodal foundational models start being deployed experimentally in
Self-Driving cars, a reasonable question we ask ourselves is how similar to
humans do these systems respond in certain driving situations -- especially
those that are out-of-distribution? To study this, we create the Robusto-1
dataset that uses dashcam video data from Peru, a country with one of the worst
(aggressive) drivers in the world, a high traffic index, and a high ratio of
bizarre to non-bizarre street objects likely never seen in training. In
particular, to preliminarly test at a cognitive level how well Foundational
Visual Language Models (VLMs) compare to Humans in Driving, we move away from
bounding boxes, segmentation maps, occupancy maps or trajectory estimation to
multi-modal Visual Question Answering (VQA) comparing both humans and machines
through a popular method in systems neuroscience known as Representational
Similarity Analysis (RSA). Depending on the type of questions we ask and the
answers these systems give, we will show in what cases do VLMs and Humans
converge or diverge allowing us to probe on their cognitive alignment. We find
that the degree of alignment varies significantly depending on the type of
questions asked to each type of system (Humans vs VLMs), highlighting a gap in
their alignment.Summary
AI-Generated Summary