ChatPaper.aiChatPaper

보는 것이 믿는 것이 아니다: 평가자 비전-언어 모델의 맹점을 파헤치다

Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models

April 23, 2026
저자: Mohammed Safi Ur Rahman Khan, Sanjay Suryanarayanan, Tushar Anand, Mitesh M. Khapra
cs.AI

초록

대규모 시각-언어 모델(VLM)은 시각 질의응답과 같은 이미지-텍스트(I2T) 작업 및 텍스트-이미지(T2I) 생성 작업에서 다른 모델의 출력을 평가하는 데 점점 더 많이 활용되고 있습니다. 이러한 의존도가 증가함에도 불구하고, 평가자 VLM의 신뢰성에 대한 연구는 아직 미흡한 실정입니다. 본 연구에서는 I2T 및 T2I 작업 전반에 걸쳐 평가자 VLM의 신뢰성을 체계적으로 평가합니다. 우리는 객체 환각, 공간 추론, 사실적 근거, 시각적 정확도 등 주요 오류 차원을 따라 출력 품질을 저하시키는 표적 교란을 도입합니다. 이러한 교란은 평가자 VLM이 평가 과정에서 이러한 품질 저하 오류를 신뢰성 있게 반영하는지 테스트합니다. 40개의 교란 차원에 걸친 4,000개 이상의 교란된 인스턴스로 구성된 포괄적인 벤치마크를 사용하여, 단일 답변 점수화, 쌍별 비교, 참조 지향 패러다임을 활용하여 4개의 주요 VLM을 평가합니다. 우리의 연구 결과는 현재의 VLM 평가자들이 상당한 맹점을 보인다는 것을 밝혀냈습니다: 그들은 종종 교란된 출력을 감지하지 못하며(일부 경우 50%를 초과), 특히 세분화된 구성적 및 공간적 오류에서 어려움을 겪고, 입력 이미지와 모순되는 환각 콘텐츠에 둔감한 경우가 많습니다. 쌍별 비교가 더 신뢰할만한 것으로 입증되었으나, 여전히 실패율이 지속됩니다. 이러한 결과는 현재 평가자 VLM의 신뢰할 수 없는 본질을 강조하며, 벤치마킹 및 개발 결정에 이를 배포할 때 주의를 촉구합니다. 코드와 데이터는 공개되었습니다.
English
Large Vision-Language Models (VLMs) are increasingly used to evaluate outputs of other models, for image-to-text (I2T) tasks such as visual question answering, and text-to-image (T2I) generation tasks. Despite this growing reliance, the reliability of these Evaluator VLMs remains under explored. In this work, we systematically evaluate the reliability of Evaluator VLMs across both I2T and T2I tasks. We introduce targeted perturbations that degrade output quality along key error dimensions, including object hallucinations, spatial reasoning, factual grounding, and visual fidelity. These perturbations test whether Evaluator VLMs can reliably account for these quality degrading errors in their evaluations. Using a comprehensive benchmark of over 4000 perturbed instances spanning 40 perturbation dimensions, we evaluate 4 prominent VLMs using single-answer scoring, pairwise comparison, and reference-guided paradigms. Our findings reveal that current VLM evaluators exhibit substantial blind spots: they often fail to detect perturbed outputs - in some cases exceeding 50%, struggle particularly with fine-grained compositional and spatial errors, and are often insensitive to hallucinated content that contradicts the input image. Pairwise comparison proves more reliable, though failure rates persist. These results highlight the unreliable nature of current Evaluator VLMs and urge caution in their deployment for benchmarking and development decisions. Code and data have been made publicly available.
PDF11April 30, 2026