VLM-SubtleBench : Quelle est la distance entre les modèles de langage visuel et le raisonnement comparatif subtil de niveau humain ?
VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?
March 9, 2026
Auteurs: Minkyu Kim, Sangheon Lee, Dongmin Park
cs.AI
Résumé
La capacité à distinguer des différences subtiles entre des images visuellement similaires est essentielle dans divers domaines tels que la détection d'anomalies industrielles, l'imagerie médicale et la surveillance aérienne. Bien que des benchmarks d'évaluation du raisonnement comparatif pour les modèles vision-langage (VLM) aient récemment émergé, ils se concentrent principalement sur des images présentant des différences importantes et saillantes, sans capturer le raisonnement nuancé requis pour les applications réelles. Dans ce travail, nous présentons VLM-SubtleBench, un benchmark conçu pour évaluer les VLM sur le raisonnement comparatif subtil. Notre benchmark couvre dix types de différences - Attribut, État, Émotion, Temporel, Spatial, Existence, Quantité, Qualité, Point de vue et Action - et propose des ensembles question-image reflétant ces variations fines. Contrairement aux benchmarks antérieurs limités à des ensembles d'images naturelles, notre benchmark couvre divers domaines, incluant l'imagerie industrielle, aérienne et médicale. Par une évaluation approfondie de VLM propriétaires et open-source, nous révélons des écarts systématiques entre les performances des modèles et celles des humains selon les types de différences et les domaines, et fournissons des analyses contrôlées mettant en évidence les situations où le raisonnement des VLM se dégrade fortement. Ensemble, notre benchmark et nos résultats établissent une base pour faire progresser les VLM vers un raisonnement comparatif de niveau humain.
English
The ability to distinguish subtle differences between visually similar images is essential for diverse domains such as industrial anomaly detection, medical imaging, and aerial surveillance. While comparative reasoning benchmarks for vision-language models (VLMs) have recently emerged, they primarily focus on images with large, salient differences and fail to capture the nuanced reasoning required for real-world applications. In this work, we introduce VLM-SubtleBench, a benchmark designed to evaluate VLMs on subtle comparative reasoning. Our benchmark covers ten difference types - Attribute, State, Emotion, Temporal, Spatial, Existence, Quantity, Quality, Viewpoint, and Action - and curate paired question-image sets reflecting these fine-grained variations. Unlike prior benchmarks restricted to natural image datasets, our benchmark spans diverse domains, including industrial, aerial, and medical imagery. Through extensive evaluation of both proprietary and open-source VLMs, we reveal systematic gaps between model and human performance across difference types and domains, and provide controlled analyses highlighting where VLMs' reasoning sharply deteriorates. Together, our benchmark and findings establish a foundation for advancing VLMs toward human-level comparative reasoning.