Оценка согласованности объектов с множественным видом у людей и моделей изображений
Evaluating Multiview Object Consistency in Humans and Image Models
September 9, 2024
Авторы: Tyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros
cs.AI
Аннотация
Мы представляем бенчмарк для прямой оценки соответствия между человеческими наблюдателями и моделями зрения в задаче вывода трехмерной формы. Мы используем экспериментальный дизайн из когнитивных наук, который требует нулевых визуальных выводов о форме объекта: участники определяют, содержат ли наборы изображений одинаковые/разные объекты, несмотря на значительное изменение точки зрения. Мы используем разнообразный набор изображений, включающий обычные объекты (например, стулья), а также абстрактные формы (т.е. процедурно генерируемые 'бессмысленные' объекты). После создания более 2000 уникальных наборов изображений мы проводим эти задачи с участием человеческих участников, собирая 35 тыс. пробных испытаний поведенческих данных от более чем 500 участников. Это включает явные выборы поведения, а также промежуточные показатели, такие как время реакции и данные взгляда. Затем мы оцениваем производительность общих моделей зрения (например, DINOv2, MAE, CLIP). Мы обнаруживаем, что люди опережают все модели с большим отрывом. Используя многоуровневый подход к оценке, мы выявляем основные сходства и различия между моделями и людьми: хотя производительность человека и модели коррелируют, люди тратят больше времени/ресурсов на сложные испытания. Все изображения, данные и код можно получить на нашей странице проекта.
English
We introduce a benchmark to directly evaluate the alignment between human
observers and vision models on a 3D shape inference task. We leverage an
experimental design from the cognitive sciences which requires zero-shot visual
inferences about object shape: given a set of images, participants identify
which contain the same/different objects, despite considerable viewpoint
variation. We draw from a diverse range of images that include common objects
(e.g., chairs) as well as abstract shapes (i.e., procedurally generated
`nonsense' objects). After constructing over 2000 unique image sets, we
administer these tasks to human participants, collecting 35K trials of
behavioral data from over 500 participants. This includes explicit choice
behaviors as well as intermediate measures, such as reaction time and gaze
data. We then evaluate the performance of common vision models (e.g., DINOv2,
MAE, CLIP). We find that humans outperform all models by a wide margin. Using a
multi-scale evaluation approach, we identify underlying similarities and
differences between models and humans: while human-model performance is
correlated, humans allocate more time/processing on challenging trials. All
images, data, and code can be accessed via our project page.Summary
AI-Generated Summary