Valutazione della Coerenza degli Oggetti Multiview negli Esseri Umani e nei Modelli di Immagini

Abstract

Introduciamo un benchmark per valutare direttamente l'allineamento tra osservatori umani e modelli di visione su un compito di inferenza sulla forma in 3D. Sfruttiamo un design sperimentale delle scienze cognitive che richiede inferenze visive senza training riguardo alla forma degli oggetti: dato un insieme di immagini, i partecipanti identificano quali contengono gli stessi/oggetti diversi, nonostante una considerevole variazione dei punti di vista. Ci basiamo su una vasta gamma di immagini che includono oggetti comuni (ad esempio, sedie) così come forme astratte (ossia, oggetti 'senza senso' generati proceduralmente). Dopo aver costruito oltre 2000 insiemi di immagini unici, sottoponiamo questi compiti ai partecipanti umani, raccogliendo 35K prove di dati comportamentali da oltre 500 partecipanti. Questo include comportamenti di scelta espliciti così come misure intermedie, come il tempo di reazione e i dati di sguardo. Valutiamo quindi le prestazioni dei modelli di visione comuni (ad esempio, DINOv2, MAE, CLIP). Troviamo che gli esseri umani superano tutti i modelli di gran lunga. Utilizzando un approccio di valutazione multi-scala, identifichiamo somiglianze e differenze sottostanti tra modelli e esseri umani: mentre le prestazioni umano-modello sono correlate, gli esseri umani allocano più tempo/elaborazione nelle prove difficili. Tutte le immagini, i dati e il codice sono accessibili tramite la nostra pagina del progetto.

English

We introduce a benchmark to directly evaluate the alignment between human observers and vision models on a 3D shape inference task. We leverage an experimental design from the cognitive sciences which requires zero-shot visual inferences about object shape: given a set of images, participants identify which contain the same/different objects, despite considerable viewpoint variation. We draw from a diverse range of images that include common objects (e.g., chairs) as well as abstract shapes (i.e., procedurally generated `nonsense' objects). After constructing over 2000 unique image sets, we administer these tasks to human participants, collecting 35K trials of behavioral data from over 500 participants. This includes explicit choice behaviors as well as intermediate measures, such as reaction time and gaze data. We then evaluate the performance of common vision models (e.g., DINOv2, MAE, CLIP). We find that humans outperform all models by a wide margin. Using a multi-scale evaluation approach, we identify underlying similarities and differences between models and humans: while human-model performance is correlated, humans allocate more time/processing on challenging trials. All images, data, and code can be accessed via our project page.

Valutazione della Coerenza degli Oggetti Multiview negli Esseri Umani e nei Modelli di Immagini

Evaluating Multiview Object Consistency in Humans and Image Models

Abstract

Support