VLM-SubtleBench: Hoe Ver Zijn VLMs Verwijderd van Menselijk Subtiel Vergelijkend Redeneren?

Samenvatting

Het vermogen om subtiele verschillen tussen visueel gelijkaardige beelden te onderscheiden is essentieel voor uiteenlopende domeinen zoals industriële anomaliedetectie, medische beeldvorming en luchtbewaking. Hoewel er recent vergelijkende redeneerbenchmarks voor visie-taalmodellen (VLM's) zijn verschenen, richten deze zich voornamelijk op beelden met grote, opvallende verschillen en slagen zij er niet in de genuanceerde redenering te vatten die nodig is voor real-world toepassingen. In dit werk introduceren we VLM-SubtleBench, een benchmark ontworpen om VLM's te evalueren op subtiel vergelijkend redeneren. Onze benchmark omvat tien verschiltypes - Attribuut, Toestand, Emotie, Temporeel, Ruimtelijk, Bestaan, Hoeveelheid, Kwaliteit, Gezichtspunt en Handeling - en stelt gekoppelde vraag-beeld sets samen die deze fijnmazige variaties weerspiegelen. In tegenstelling tot eerdere benchmarks die beperkt zijn tot natuurlijke beelddatasets, omspant onze benchmark diverse domeinen, waaronder industriële, lucht- en medische beelden. Door uitgebreide evaluatie van zowel propriëtaire als open-source VLM's, leggen we systematische kloofjes bloot tussen model- en menselijke prestaties across verschiltypes en domeinen, en bieden we gecontroleerde analyses die belichten waar het redeneren van VLM's sterk verslechtert. Samen leggen onze benchmark en bevindingen een fundament voor het bevorderen van VLM's naar menselijk niveau van vergelijkend redeneren.

English

The ability to distinguish subtle differences between visually similar images is essential for diverse domains such as industrial anomaly detection, medical imaging, and aerial surveillance. While comparative reasoning benchmarks for vision-language models (VLMs) have recently emerged, they primarily focus on images with large, salient differences and fail to capture the nuanced reasoning required for real-world applications. In this work, we introduce VLM-SubtleBench, a benchmark designed to evaluate VLMs on subtle comparative reasoning. Our benchmark covers ten difference types - Attribute, State, Emotion, Temporal, Spatial, Existence, Quantity, Quality, Viewpoint, and Action - and curate paired question-image sets reflecting these fine-grained variations. Unlike prior benchmarks restricted to natural image datasets, our benchmark spans diverse domains, including industrial, aerial, and medical imagery. Through extensive evaluation of both proprietary and open-source VLMs, we reveal systematic gaps between model and human performance across difference types and domains, and provide controlled analyses highlighting where VLMs' reasoning sharply deteriorates. Together, our benchmark and findings establish a foundation for advancing VLMs toward human-level comparative reasoning.

VLM-SubtleBench: Hoe Ver Zijn VLMs Verwijderd van Menselijk Subtiel Vergelijkend Redeneren?

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Samenvatting

Support