ChatPaper.aiChatPaper

Evaluación de la Consistencia de Objetos Multivista en Humanos y Modelos de Imágenes

Evaluating Multiview Object Consistency in Humans and Image Models

September 9, 2024
Autores: Tyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros
cs.AI

Resumen

Introducimos un punto de referencia para evaluar directamente la alineación entre observadores humanos y modelos de visión en una tarea de inferencia de formas en 3D. Aprovechamos un diseño experimental de las ciencias cognitivas que requiere inferencias visuales sin entrenamiento sobre la forma de un objeto: dadas un conjunto de imágenes, los participantes identifican cuáles contienen objetos iguales/diferentes, a pesar de una considerable variación en el punto de vista. Utilizamos una amplia gama de imágenes que incluyen objetos comunes (por ejemplo, sillas) así como formas abstractas (es decir, objetos generados proceduralmente como 'nonsense'). Tras construir más de 2000 conjuntos de imágenes únicas, administramos estas tareas a participantes humanos, recopilando 35K pruebas de datos conductuales de más de 500 participantes. Esto incluye comportamientos de elección explícitos, así como medidas intermedias, como el tiempo de reacción y datos de mirada. Luego evaluamos el rendimiento de modelos de visión comunes (por ejemplo, DINOv2, MAE, CLIP). Descubrimos que los humanos superan ampliamente a todos los modelos. Utilizando un enfoque de evaluación multi-escala, identificamos similitudes y diferencias subyacentes entre modelos y humanos: aunque el rendimiento humano-modelo está correlacionado, los humanos dedican más tiempo/procesamiento en pruebas desafiantes. Todas las imágenes, datos y código pueden ser accedidos a través de nuestra página del proyecto.
English
We introduce a benchmark to directly evaluate the alignment between human observers and vision models on a 3D shape inference task. We leverage an experimental design from the cognitive sciences which requires zero-shot visual inferences about object shape: given a set of images, participants identify which contain the same/different objects, despite considerable viewpoint variation. We draw from a diverse range of images that include common objects (e.g., chairs) as well as abstract shapes (i.e., procedurally generated `nonsense' objects). After constructing over 2000 unique image sets, we administer these tasks to human participants, collecting 35K trials of behavioral data from over 500 participants. This includes explicit choice behaviors as well as intermediate measures, such as reaction time and gaze data. We then evaluate the performance of common vision models (e.g., DINOv2, MAE, CLIP). We find that humans outperform all models by a wide margin. Using a multi-scale evaluation approach, we identify underlying similarities and differences between models and humans: while human-model performance is correlated, humans allocate more time/processing on challenging trials. All images, data, and code can be accessed via our project page.

Summary

AI-Generated Summary

PDF102November 16, 2024