VLM-SubtleBench: Насколько видеоязыковые модели близки к человеческому уровню в тонком сравнительном анализе?

Аннотация

Способность различать тонкие различия между визуально схожими изображениями имеет ключевое значение для таких областей, как промышленное обнаружение аномалий, медицинская визуализация и аэросъёмка. Хотя сравнительные тесты для моделей «визуальный язык» (VLMs) недавно появились, они в основном сосредоточены на изображениях с крупными, явными различиями и не отражают нюансированные рассуждения, необходимые для реальных приложений. В данной работе мы представляем VLM-SubtleBench — тест, разработанный для оценки VLMs на способность к тонкому сравнительному анализу. Наш тест охватывает десять типов различий — атрибутивные, состояния, эмоции, временные, пространственные, существования, количества, качества, ракурса и действия — и включает подобранные наборы пар «вопрос-изображение», отражающие эти тонкие вариации. В отличие от предыдущих тестов, ограниченных наборами данных с естественными изображениями, наш тест охватывает различные области, включая промышленные, аэроснимки и медицинские изображения. В результате всесторонней оценки как проприетарных, так и открытых VLMs мы выявляем систематические разрывы между производительностью моделей и человека для различных типов различий и доменов, а также проводим контролируемый анализ, показывающий, где рассуждения VLMs резко ухудшаются. В совокупности наш тест и результаты закладывают основу для продвижения VLMs к сравнительным рассуждениям человеческого уровня.

English

The ability to distinguish subtle differences between visually similar images is essential for diverse domains such as industrial anomaly detection, medical imaging, and aerial surveillance. While comparative reasoning benchmarks for vision-language models (VLMs) have recently emerged, they primarily focus on images with large, salient differences and fail to capture the nuanced reasoning required for real-world applications. In this work, we introduce VLM-SubtleBench, a benchmark designed to evaluate VLMs on subtle comparative reasoning. Our benchmark covers ten difference types - Attribute, State, Emotion, Temporal, Spatial, Existence, Quantity, Quality, Viewpoint, and Action - and curate paired question-image sets reflecting these fine-grained variations. Unlike prior benchmarks restricted to natural image datasets, our benchmark spans diverse domains, including industrial, aerial, and medical imagery. Through extensive evaluation of both proprietary and open-source VLMs, we reveal systematic gaps between model and human performance across difference types and domains, and provide controlled analyses highlighting where VLMs' reasoning sharply deteriorates. Together, our benchmark and findings establish a foundation for advancing VLMs toward human-level comparative reasoning.

VLM-SubtleBench: Насколько видеоязыковые модели близки к человеческому уровню в тонком сравнительном анализе?

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Аннотация

Support