見ることは信じることならず:評価者向け視覚言語モデルの盲点を探る
Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models
April 23, 2026
著者: Mohammed Safi Ur Rahman Khan, Sanjay Suryanarayanan, Tushar Anand, Mitesh M. Khapra
cs.AI
要旨
大規模視覚言語モデル(VLM)は、視覚質問応答などの画像対テキスト(I2T)タスクや、テキスト対画像(T2I)生成タスクにおいて、他のモデルの出力を評価するために利用が増加している。このような依存度の高まりにもかかわらず、評価者としてのVLMの信頼性については未解明な部分が多い。本研究では、I2TとT2Iの両タスクにおいて、評価者VLMの信頼性を体系的に評価する。対象物の幻覚、空間推論、事実的根拠、視覚的忠実度といった主要な誤り次元に沿って出力品質を劣化させる標的化摂動を導入し、評価者VLMがこれらの品質劣化誤りを評価において確実に考慮できるかどうかを検証する。40の摂動次元にわたる4,000以上の摂動インスタンスから成る包括的ベンチマークを用い、単一回答採点、ペアワイズ比較、参照文誘導の3つの評価パラダイムにより4つの主要VLMを評価した。結果として、現在のVLM評価者は重大な盲点を有することが明らかとなった:摂動を加えた出力を検知できない場合が多く(一部では50%超)、特に細粒度の構成要素的・空間的誤りに対して弱く、入力画像と矛盾する幻覚内容に対してしばしば鈍感である。ペアワイズ比較は比較的信頼性が高いものの、失敗率はなお持続する。これらの結果は、現在の評価者VLMの信頼性の低さを浮き彫りにし、ベンチマーキングや開発判断への適用には注意を促すものである。コードとデータは公開されている。
English
Large Vision-Language Models (VLMs) are increasingly used to evaluate outputs of other models, for image-to-text (I2T) tasks such as visual question answering, and text-to-image (T2I) generation tasks. Despite this growing reliance, the reliability of these Evaluator VLMs remains under explored. In this work, we systematically evaluate the reliability of Evaluator VLMs across both I2T and T2I tasks. We introduce targeted perturbations that degrade output quality along key error dimensions, including object hallucinations, spatial reasoning, factual grounding, and visual fidelity. These perturbations test whether Evaluator VLMs can reliably account for these quality degrading errors in their evaluations. Using a comprehensive benchmark of over 4000 perturbed instances spanning 40 perturbation dimensions, we evaluate 4 prominent VLMs using single-answer scoring, pairwise comparison, and reference-guided paradigms. Our findings reveal that current VLM evaluators exhibit substantial blind spots: they often fail to detect perturbed outputs - in some cases exceeding 50%, struggle particularly with fine-grained compositional and spatial errors, and are often insensitive to hallucinated content that contradicts the input image. Pairwise comparison proves more reliable, though failure rates persist. These results highlight the unreliable nature of current Evaluator VLMs and urge caution in their deployment for benchmarking and development decisions. Code and data have been made publicly available.