Valutazione della Coerenza degli Oggetti Multiview negli Esseri Umani e nei Modelli di Immagini
Evaluating Multiview Object Consistency in Humans and Image Models
September 9, 2024
Autori: Tyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros
cs.AI
Abstract
Introduciamo un benchmark per valutare direttamente l'allineamento tra osservatori umani e modelli di visione su un compito di inferenza sulla forma in 3D. Sfruttiamo un design sperimentale delle scienze cognitive che richiede inferenze visive senza training riguardo alla forma degli oggetti: dato un insieme di immagini, i partecipanti identificano quali contengono gli stessi/oggetti diversi, nonostante una considerevole variazione dei punti di vista. Ci basiamo su una vasta gamma di immagini che includono oggetti comuni (ad esempio, sedie) così come forme astratte (ossia, oggetti 'senza senso' generati proceduralmente). Dopo aver costruito oltre 2000 insiemi di immagini unici, sottoponiamo questi compiti ai partecipanti umani, raccogliendo 35K prove di dati comportamentali da oltre 500 partecipanti. Questo include comportamenti di scelta espliciti così come misure intermedie, come il tempo di reazione e i dati di sguardo. Valutiamo quindi le prestazioni dei modelli di visione comuni (ad esempio, DINOv2, MAE, CLIP). Troviamo che gli esseri umani superano tutti i modelli di gran lunga. Utilizzando un approccio di valutazione multi-scala, identifichiamo somiglianze e differenze sottostanti tra modelli e esseri umani: mentre le prestazioni umano-modello sono correlate, gli esseri umani allocano più tempo/elaborazione nelle prove difficili. Tutte le immagini, i dati e il codice sono accessibili tramite la nostra pagina del progetto.
English
We introduce a benchmark to directly evaluate the alignment between human
observers and vision models on a 3D shape inference task. We leverage an
experimental design from the cognitive sciences which requires zero-shot visual
inferences about object shape: given a set of images, participants identify
which contain the same/different objects, despite considerable viewpoint
variation. We draw from a diverse range of images that include common objects
(e.g., chairs) as well as abstract shapes (i.e., procedurally generated
`nonsense' objects). After constructing over 2000 unique image sets, we
administer these tasks to human participants, collecting 35K trials of
behavioral data from over 500 participants. This includes explicit choice
behaviors as well as intermediate measures, such as reaction time and gaze
data. We then evaluate the performance of common vision models (e.g., DINOv2,
MAE, CLIP). We find that humans outperform all models by a wide margin. Using a
multi-scale evaluation approach, we identify underlying similarities and
differences between models and humans: while human-model performance is
correlated, humans allocate more time/processing on challenging trials. All
images, data, and code can be accessed via our project page.