ChatPaper.aiChatPaper

Het evalueren van de consistentie van objecten in meerdere aanzichten bij mensen en beeldmodellen

Evaluating Multiview Object Consistency in Humans and Image Models

September 9, 2024
Auteurs: Tyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros
cs.AI

Samenvatting

We introduceren een benchmark om de afstemming tussen menselijke waarnemers en visiemodellen direct te evalueren voor een 3D-vorminferentietaak. We maken gebruik van een experimenteel ontwerp uit de cognitieve wetenschappen dat nul-shot visuele inferenties over objectvorm vereist: deelnemers moeten, gegeven een reeks afbeeldingen, identificeren welke dezelfde/different objecten bevatten, ondanks aanzienlijke gezichtspuntvariatie. We putten uit een diverse reeks afbeeldingen die zowel alledaagse objecten (bijv. stoelen) als abstracte vormen bevatten (d.w.z. procedureel gegenereerde 'onzin'-objecten). Na het construeren van meer dan 2000 unieke beeldensets, leggen we deze taken voor aan menselijke deelnemers, waarbij we 35K proeven aan gedragsgegevens verzamelen van meer dan 500 deelnemers. Dit omvat expliciete keuzegedragingen evenals tussenliggende maatregelen, zoals reactietijd en kijkgegevens. Vervolgens evalueren we de prestaties van gangbare visiemodellen (bijv. DINOv2, MAE, CLIP). We constateren dat mensen alle modellen veruit overtreffen. Met behulp van een multi-schaal evaluatiebenadering identificeren we onderliggende overeenkomsten en verschillen tussen modellen en mensen: hoewel de prestaties van mens en model gecorreleerd zijn, besteden mensen meer tijd/verwerking aan uitdagende proeven. Alle afbeeldingen, gegevens en code zijn toegankelijk via onze projectpagina.
English
We introduce a benchmark to directly evaluate the alignment between human observers and vision models on a 3D shape inference task. We leverage an experimental design from the cognitive sciences which requires zero-shot visual inferences about object shape: given a set of images, participants identify which contain the same/different objects, despite considerable viewpoint variation. We draw from a diverse range of images that include common objects (e.g., chairs) as well as abstract shapes (i.e., procedurally generated `nonsense' objects). After constructing over 2000 unique image sets, we administer these tasks to human participants, collecting 35K trials of behavioral data from over 500 participants. This includes explicit choice behaviors as well as intermediate measures, such as reaction time and gaze data. We then evaluate the performance of common vision models (e.g., DINOv2, MAE, CLIP). We find that humans outperform all models by a wide margin. Using a multi-scale evaluation approach, we identify underlying similarities and differences between models and humans: while human-model performance is correlated, humans allocate more time/processing on challenging trials. All images, data, and code can be accessed via our project page.

Summary

AI-Generated Summary

PDF102November 16, 2024