Bewertung der Konsistenz von Objekten aus verschiedenen Ansichten bei Menschen und Bildmodellen
Evaluating Multiview Object Consistency in Humans and Image Models
September 9, 2024
Autoren: Tyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros
cs.AI
Zusammenfassung
Wir stellen einen Leistungsmaßstab vor, um die Übereinstimmung zwischen menschlichen Beobachtern und Vision-Modellen bei einer 3D-Forminferenzaufgabe direkt zu bewerten. Wir nutzen ein experimentelles Design aus den Kognitionswissenschaften, das Nullschuss-Visuale Inferenzen über Objektform erfordert: Teilnehmer identifizieren anhand einer Bilderserie, welche die gleichen/unterschiedlichen Objekte enthalten, trotz erheblicher Blickwinkelvariation. Wir greifen auf eine Vielzahl von Bildern zurück, die alltägliche Objekte (z. B. Stühle) sowie abstrakte Formen (d. h. prozedural generierte 'Nonsens'-Objekte) umfassen. Nach der Erstellung von über 2000 einzigartigen Bildersets führen wir diese Aufgaben mit menschlichen Teilnehmern durch und sammeln 35.000 Versuche an Verhaltensdaten von über 500 Teilnehmern. Dies umfasst explizite Wahlverhalten sowie Zwischenmaße wie Reaktionszeit und Blickdaten. Anschließend bewerten wir die Leistung gängiger Vision-Modelle (z. B. DINOv2, MAE, CLIP). Wir stellen fest, dass Menschen alle Modelle bei weitem übertreffen. Unter Verwendung eines Multi-Skalen-Bewertungsansatzes identifizieren wir zugrunde liegende Ähnlichkeiten und Unterschiede zwischen Modellen und Menschen: Während die Leistung von Mensch und Modell korreliert ist, verwenden Menschen mehr Zeit/Verarbeitung bei anspruchsvollen Versuchen. Alle Bilder, Daten und Codes sind über unsere Projektseite zugänglich.
English
We introduce a benchmark to directly evaluate the alignment between human
observers and vision models on a 3D shape inference task. We leverage an
experimental design from the cognitive sciences which requires zero-shot visual
inferences about object shape: given a set of images, participants identify
which contain the same/different objects, despite considerable viewpoint
variation. We draw from a diverse range of images that include common objects
(e.g., chairs) as well as abstract shapes (i.e., procedurally generated
`nonsense' objects). After constructing over 2000 unique image sets, we
administer these tasks to human participants, collecting 35K trials of
behavioral data from over 500 participants. This includes explicit choice
behaviors as well as intermediate measures, such as reaction time and gaze
data. We then evaluate the performance of common vision models (e.g., DINOv2,
MAE, CLIP). We find that humans outperform all models by a wide margin. Using a
multi-scale evaluation approach, we identify underlying similarities and
differences between models and humans: while human-model performance is
correlated, humans allocate more time/processing on challenging trials. All
images, data, and code can be accessed via our project page.Summary
AI-Generated Summary