VLM-SubtleBench: Wie weit entfernt sind VLMs von menschenähnlichem subtilem Vergleichsdenken?

Zusammenfassung

Die Fähigkeit, subtile Unterschiede zwischen visuell ähnlichen Bildern zu unterscheiden, ist für verschiedene Bereiche wie die industrielle Anomalieerkennung, die medizinische Bildgebung und die Luftüberwachung von entscheidender Bedeutung. Während kürzlich Vergleichs-Benchmarks für Vision-Language-Modelle (VLMs) entstanden sind, konzentrieren diese sich hauptsächlich auf Bilder mit großen, auffälligen Unterschieden und erfassen nicht die nuancierten Abwägungen, die für reale Anwendungen erforderlich sind. In dieser Arbeit stellen wir VLM-SubtleBench vor, einen Benchmark, der entwickelt wurde, um VLMs anhand von subtilem vergleichendem Denken zu bewerten. Unser Benchmark deckt zehn Unterschiedstypen ab – Attribut, Zustand, Emotion, Temporal, Räumlich, Existenz, Menge, Qualität, Blickwinkel und Aktion – und kuratiert gepaarte Frage-Bild-Sets, die diese fein abgestuften Variationen widerspiegeln. Anders als frühere Benchmarks, die auf natürliche Bilddatensätze beschränkt sind, erstreckt sich unser Benchmark über verschiedene Domänen, einschließlich industrieller, luftgestützter und medizinischer Bildgebung. Durch eine umfassende Evaluierung sowohl proprietärer als auch quelloffener VLMs decken wir systematische Lücken zwischen der Modell- und der menschlichen Leistung über Unterschiedstypen und Domänen hinweg auf und liefern kontrollierte Analysen, die hervorheben, wo die Schlussfolgerungsfähigkeit von VLMs stark nachlässt. Zusammen bilden unser Benchmark und unsere Erkenntnisse eine Grundlage, um VLMs in Richtung eines menschenähnlichen vergleichenden Denkens weiterzuentwickeln.

English

The ability to distinguish subtle differences between visually similar images is essential for diverse domains such as industrial anomaly detection, medical imaging, and aerial surveillance. While comparative reasoning benchmarks for vision-language models (VLMs) have recently emerged, they primarily focus on images with large, salient differences and fail to capture the nuanced reasoning required for real-world applications. In this work, we introduce VLM-SubtleBench, a benchmark designed to evaluate VLMs on subtle comparative reasoning. Our benchmark covers ten difference types - Attribute, State, Emotion, Temporal, Spatial, Existence, Quantity, Quality, Viewpoint, and Action - and curate paired question-image sets reflecting these fine-grained variations. Unlike prior benchmarks restricted to natural image datasets, our benchmark spans diverse domains, including industrial, aerial, and medical imagery. Through extensive evaluation of both proprietary and open-source VLMs, we reveal systematic gaps between model and human performance across difference types and domains, and provide controlled analyses highlighting where VLMs' reasoning sharply deteriorates. Together, our benchmark and findings establish a foundation for advancing VLMs toward human-level comparative reasoning.

VLM-SubtleBench: Wie weit entfernt sind VLMs von menschenähnlichem subtilem Vergleichsdenken?

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Zusammenfassung

Support