Avaliando a Consistência de Objetos Multivisão em Humanos e Modelos de Imagem
Evaluating Multiview Object Consistency in Humans and Image Models
September 9, 2024
Autores: Tyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros
cs.AI
Resumo
Apresentamos um benchmark para avaliar diretamente o alinhamento entre observadores humanos e modelos de visão em uma tarefa de inferência de forma 3D. Utilizamos um design experimental das ciências cognitivas que requer inferências visuais sem treinamento sobre a forma do objeto: dado um conjunto de imagens, os participantes identificam quais contêm objetos iguais/diferentes, apesar da considerável variação de ponto de vista. Utilizamos uma ampla gama de imagens que incluem objetos comuns (por exemplo, cadeiras) e formas abstratas (ou seja, objetos gerados proceduralmente 'sem sentido'). Após a construção de mais de 2000 conjuntos de imagens únicas, administramos essas tarefas a participantes humanos, coletando 35 mil tentativas de dados comportamentais de mais de 500 participantes. Isso inclui comportamentos de escolha explícitos, bem como medidas intermediárias, como tempo de reação e dados de olhar. Em seguida, avaliamos o desempenho de modelos de visão comuns (por exemplo, DINOv2, MAE, CLIP). Descobrimos que os humanos superam todos os modelos por uma ampla margem. Usando uma abordagem de avaliação multi-escala, identificamos similaridades e diferenças subjacentes entre modelos e humanos: enquanto o desempenho humano-modelo está correlacionado, os humanos alocam mais tempo/processamento em tentativas desafiadoras. Todas as imagens, dados e código podem ser acessados através da nossa página do projeto.
English
We introduce a benchmark to directly evaluate the alignment between human
observers and vision models on a 3D shape inference task. We leverage an
experimental design from the cognitive sciences which requires zero-shot visual
inferences about object shape: given a set of images, participants identify
which contain the same/different objects, despite considerable viewpoint
variation. We draw from a diverse range of images that include common objects
(e.g., chairs) as well as abstract shapes (i.e., procedurally generated
`nonsense' objects). After constructing over 2000 unique image sets, we
administer these tasks to human participants, collecting 35K trials of
behavioral data from over 500 participants. This includes explicit choice
behaviors as well as intermediate measures, such as reaction time and gaze
data. We then evaluate the performance of common vision models (e.g., DINOv2,
MAE, CLIP). We find that humans outperform all models by a wide margin. Using a
multi-scale evaluation approach, we identify underlying similarities and
differences between models and humans: while human-model performance is
correlated, humans allocate more time/processing on challenging trials. All
images, data, and code can be accessed via our project page.Summary
AI-Generated Summary