MVI-Bench: 대규모 시각언어모델의 오해의 소지가 있는 시각 입력에 대한 강건성 평가를 위한 포괄적 벤치마크
MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs
November 18, 2025
저자: Huiyi Chen, Jiawei Peng, Dehai Min, Changchang Sun, Kaijie Chen, Yan Yan, Xu Yang, Lu Cheng
cs.AI
초록
대규모 시각-언어 모델(LVLM)의 견고성을 평가하는 것은 실제 애플리케이션에서의 지속적인 발전과 책임 있는 배포에 필수적입니다. 그러나 기존의 견고성 벤치마크는 일반적으로 환각(hallucination)이나 오도하는 텍스트 입력에 초점을 맞추는 반면, 시각적 이해 평가에서 동등하게 중요한 과제인 오도하는 시각 입력에 의한 문제는 크게 간과되어 왔습니다. 이러한 중요한 공백을 메우기 위해, 우리는 오도하는 시각 입력(Misleading Visual Inputs)이 LVLM의 견고성을 어떻게 훼손하는지 평가하기 위해 특별히 설계된 첫 번째 포괄적인 벤치마크인 MVI-Bench를 소개합니다. 기본적인 시각 요소(visual primitives)에 기반을 둔 MVI-Bench의 설계는 오도하는 시각 입력의 세 가지 계층적 수준, 즉 시각 개념(Visual Concept), 시각 속성(Visual Attribute), 시각 관계(Visual Relationship)를 중심으로 구성됩니다. 이 분류 체계를 사용하여 우리는 여섯 가지 대표적인 범주를 선정하고 1,248개의 전문적으로 주석이 달린 VQA(Visual Question Answering) 인스턴스를 구성했습니다. 세분화된 견고성 평가를 용이하게 하기 위해, 우리는 LVLM의 견고성을 세부 수준에서 특징짓는 새로운 평가 지표인 MVI-민감도(MVI-Sensitivity)를 추가로 도입했습니다. 18개의 최신 LVLM에 대한 실험 결과는 오도하는 시각 입력에 대한 현저한 취약성을 드러냈으며, MVI-Bench에 대한 심층 분석은 보다 신뢰할 수 있고 견고한 LVLM 개발을 안내할 수 있는 실행 가능한 통찰력을 제공합니다. 벤치마크와 코드베이스는 https://github.com/chenyil6/MVI-Bench 에서 확인할 수 있습니다.
English
Evaluating the robustness of Large Vision-Language Models (LVLMs) is essential for their continued development and responsible deployment in real-world applications. However, existing robustness benchmarks typically focus on hallucination or misleading textual inputs, while largely overlooking the equally critical challenge posed by misleading visual inputs in assessing visual understanding. To fill this important gap, we introduce MVI-Bench, the first comprehensive benchmark specially designed for evaluating how Misleading Visual Inputs undermine the robustness of LVLMs. Grounded in fundamental visual primitives, the design of MVI-Bench centers on three hierarchical levels of misleading visual inputs: Visual Concept, Visual Attribute, and Visual Relationship. Using this taxonomy, we curate six representative categories and compile 1,248 expertly annotated VQA instances. To facilitate fine-grained robustness evaluation, we further introduce MVI-Sensitivity, a novel metric that characterizes LVLM robustness at a granular level. Empirical results across 18 state-of-the-art LVLMs uncover pronounced vulnerabilities to misleading visual inputs, and our in-depth analyses on MVI-Bench provide actionable insights that can guide the development of more reliable and robust LVLMs. The benchmark and codebase can be accessed at https://github.com/chenyil6/MVI-Bench.