ChatPaper.aiChatPaper

Évaluation de la cohérence d'objet multivue chez les humains et les modèles d'images

Evaluating Multiview Object Consistency in Humans and Image Models

September 9, 2024
Auteurs: Tyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros
cs.AI

Résumé

Nous introduisons un banc d'essai pour évaluer directement l'alignement entre les observateurs humains et les modèles de vision sur une tâche d'inférence de forme en 3D. Nous exploitons un design expérimental des sciences cognitives qui nécessite des inférences visuelles sans entraînement sur la forme des objets : étant donné un ensemble d'images, les participants doivent identifier celles qui contiennent des objets identiques/différents, malgré une variation considérable des points de vue. Nous utilisons une gamme diversifiée d'images comprenant des objets courants (par exemple, des chaises) ainsi que des formes abstraites (c'est-à-dire des objets générés de manière procédurale qualifiés de "nonsense"). Après avoir construit plus de 2000 ensembles d'images uniques, nous soumettons ces tâches à des participants humains, recueillant 35 000 essais de données comportementales auprès de plus de 500 participants. Cela inclut des comportements de choix explicites ainsi que des mesures intermédiaires telles que le temps de réaction et les données de regard. Nous évaluons ensuite les performances des modèles de vision courants (par exemple, DINOv2, MAE, CLIP). Nous constatons que les humains surpassent de loin tous les modèles. En utilisant une approche d'évaluation multi-échelle, nous identifions les similarités et les différences sous-jacentes entre les modèles et les humains : bien que les performances humaines et des modèles soient corrélées, les humains consacrent plus de temps/de traitement aux essais difficiles. Toutes les images, données et code sont accessibles via notre page de projet.
English
We introduce a benchmark to directly evaluate the alignment between human observers and vision models on a 3D shape inference task. We leverage an experimental design from the cognitive sciences which requires zero-shot visual inferences about object shape: given a set of images, participants identify which contain the same/different objects, despite considerable viewpoint variation. We draw from a diverse range of images that include common objects (e.g., chairs) as well as abstract shapes (i.e., procedurally generated `nonsense' objects). After constructing over 2000 unique image sets, we administer these tasks to human participants, collecting 35K trials of behavioral data from over 500 participants. This includes explicit choice behaviors as well as intermediate measures, such as reaction time and gaze data. We then evaluate the performance of common vision models (e.g., DINOv2, MAE, CLIP). We find that humans outperform all models by a wide margin. Using a multi-scale evaluation approach, we identify underlying similarities and differences between models and humans: while human-model performance is correlated, humans allocate more time/processing on challenging trials. All images, data, and code can be accessed via our project page.

Summary

AI-Generated Summary

PDF102November 16, 2024