VLM-SubtleBench: ¿Qué Tan Lejos Están los VLM del Razonamiento Comparativo Sutil a Nivel Humano?

Resumen

La capacidad de distinguir diferencias sutiles entre imágenes visualmente similares es esencial para diversos dominios, como la detección de anomalías industriales, la imagen médica y la vigilancia aérea. Si bien recientemente han surgido puntos de referencia de razonamiento comparativo para modelos de visión y lenguaje (VLM), estos se centran principalmente en imágenes con diferencias grandes y destacadas, y no logran capturar el razonamiento matizado requerido para aplicaciones del mundo real. En este trabajo, presentamos VLM-SubtleBench, un punto de referencia diseñado para evaluar los VLM en el razonamiento comparativo sutil. Nuestro benchmark cubre diez tipos de diferencias - Atributo, Estado, Emoción, Temporal, Espacial, Existencia, Cantidad, Calidad, Punto de Vista y Acción - y cura conjuntos de preguntas-imágenes pareadas que reflejan estas variaciones de grano fino. A diferencia de puntos de referencia anteriores restringidos a conjuntos de datos de imágenes naturales, nuestro benchmark abarca diversos dominios, incluyendo imágenes industriales, aéreas y médicas. Mediante una evaluación exhaustiva de VLM tanto propietarios como de código abierto, revelamos brechas sistemáticas entre el rendimiento de los modelos y el humano en diferentes tipos de diferencias y dominios, y proporcionamos análisis controlados que destacan dónde el razonamiento de los VLM se deteriora abruptamente. En conjunto, nuestro punto de referencia y hallazgos establecen una base para avanzar los VLM hacia un razonamiento comparativo de nivel humano.

English

The ability to distinguish subtle differences between visually similar images is essential for diverse domains such as industrial anomaly detection, medical imaging, and aerial surveillance. While comparative reasoning benchmarks for vision-language models (VLMs) have recently emerged, they primarily focus on images with large, salient differences and fail to capture the nuanced reasoning required for real-world applications. In this work, we introduce VLM-SubtleBench, a benchmark designed to evaluate VLMs on subtle comparative reasoning. Our benchmark covers ten difference types - Attribute, State, Emotion, Temporal, Spatial, Existence, Quantity, Quality, Viewpoint, and Action - and curate paired question-image sets reflecting these fine-grained variations. Unlike prior benchmarks restricted to natural image datasets, our benchmark spans diverse domains, including industrial, aerial, and medical imagery. Through extensive evaluation of both proprietary and open-source VLMs, we reveal systematic gaps between model and human performance across difference types and domains, and provide controlled analyses highlighting where VLMs' reasoning sharply deteriorates. Together, our benchmark and findings establish a foundation for advancing VLMs toward human-level comparative reasoning.

VLM-SubtleBench: ¿Qué Tan Lejos Están los VLM del Razonamiento Comparativo Sutil a Nivel Humano?

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Resumen

Support