VLM-SubtleBench: Quão Próximos Estão os VLMs do Raciocínio Comparativo Sutil de Nível Humano?

Resumo

A capacidade de distinguir diferenças subtis entre imagens visualmente semelhantes é essencial para diversos domínios, como a deteção de anomalias industriais, a imagem médica e a vigilância aérea. Embora tenham surgido recentemente benchmarks de raciocínio comparativo para modelos de visão e linguagem (VLMs), estes focam-se principalmente em imagens com diferenças grandes e salientes, não conseguindo captar o raciocínio nuances exigido por aplicações do mundo real. Neste trabalho, apresentamos o VLM-SubtleBench, um benchmark concebido para avaliar VLMs em raciocínio comparativo subtil. O nosso benchmark abrange dez tipos de diferença - Atributo, Estado, Emoção, Temporal, Espacial, Existência, Quantidade, Qualidade, Ponto de Vista e Ação - e seleciona conjuntos de perguntas-imagens emparelhadas que refletem estas variações de granularidade fina. Ao contrário de benchmarks anteriores, restritos a conjuntos de dados de imagens naturais, o nosso abrange diversos domínios, incluindo imagens industriais, aéreas e médicas. Através de uma avaliação extensiva de VLMs proprietários e de código aberto, revelamos lacunas sistemáticas entre o desempenho dos modelos e o desempenho humano entre tipos de diferença e domínios, e fornecemos análises controladas que destacam onde o raciocínio dos VLMs se deteriora acentuadamente. Em conjunto, o nosso benchmark e descobertas estabelecem uma base para o avanço dos VLMs em direção a um raciocínio comparativo de nível humano.

English

The ability to distinguish subtle differences between visually similar images is essential for diverse domains such as industrial anomaly detection, medical imaging, and aerial surveillance. While comparative reasoning benchmarks for vision-language models (VLMs) have recently emerged, they primarily focus on images with large, salient differences and fail to capture the nuanced reasoning required for real-world applications. In this work, we introduce VLM-SubtleBench, a benchmark designed to evaluate VLMs on subtle comparative reasoning. Our benchmark covers ten difference types - Attribute, State, Emotion, Temporal, Spatial, Existence, Quantity, Quality, Viewpoint, and Action - and curate paired question-image sets reflecting these fine-grained variations. Unlike prior benchmarks restricted to natural image datasets, our benchmark spans diverse domains, including industrial, aerial, and medical imagery. Through extensive evaluation of both proprietary and open-source VLMs, we reveal systematic gaps between model and human performance across difference types and domains, and provide controlled analyses highlighting where VLMs' reasoning sharply deteriorates. Together, our benchmark and findings establish a foundation for advancing VLMs toward human-level comparative reasoning.

VLM-SubtleBench: Quão Próximos Estão os VLMs do Raciocínio Comparativo Sutil de Nível Humano?

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Resumo

Support