MVI-Bench: LVLMにおける誤解を招く視覚的入力へのロバスト性評価のための包括的ベンチマーク
MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs
November 18, 2025
著者: Huiyi Chen, Jiawei Peng, Dehai Min, Changchang Sun, Kaijie Chen, Yan Yan, Xu Yang, Lu Cheng
cs.AI
要旨
大規模視覚言語モデル(LVLM)の頑健性評価は、実世界アプリケーションにおける継続的な開発と責任ある展開において不可欠である。しかし、既存の頑健性ベンチマークは通常、幻覚や誤解を招くテキスト入力に焦点を当てており、視覚理解の評価において同様に重要な課題である誤解を招く視覚入力の評価がほぼ見過ごされている。この重要なギャップを埋めるため、我々は誤解を招く視覚入力がLVLMの頑健性をどのように損なうかを評価するために特別に設計された初の包括的ベンチマーク「MVI-Bench」を提案する。基本的な視覚プリミティブに基づくMVI-Benchの設計は、誤解を招く視覚入力の3つの階層レベル、すなわち「視覚概念」「視覚属性」「視覚関係」を中心に構成されている。この分類体系を用いて、6つの代表的なカテゴリーを精選し、専門家による注釈付きの1,248のVQAインスタンスを構築した。きめ細かい頑健性評価を可能にするため、粒度の高いレベルでLVLMの頑健性を特徴づける新しい評価指標「MVI-Sensitivity」をさらに導入した。18の最先端LVLMを用いた実証実験により、誤解を招く視覚入力に対する顕著な脆弱性が明らかになり、MVI-Benchにおける詳細分析は、より信頼性の高い頑健なLVLMの開発を導く実践的な知見を提供する。ベンチマークとコードベースはhttps://github.com/chenyil6/MVI-Benchでアクセス可能である。
English
Evaluating the robustness of Large Vision-Language Models (LVLMs) is essential for their continued development and responsible deployment in real-world applications. However, existing robustness benchmarks typically focus on hallucination or misleading textual inputs, while largely overlooking the equally critical challenge posed by misleading visual inputs in assessing visual understanding. To fill this important gap, we introduce MVI-Bench, the first comprehensive benchmark specially designed for evaluating how Misleading Visual Inputs undermine the robustness of LVLMs. Grounded in fundamental visual primitives, the design of MVI-Bench centers on three hierarchical levels of misleading visual inputs: Visual Concept, Visual Attribute, and Visual Relationship. Using this taxonomy, we curate six representative categories and compile 1,248 expertly annotated VQA instances. To facilitate fine-grained robustness evaluation, we further introduce MVI-Sensitivity, a novel metric that characterizes LVLM robustness at a granular level. Empirical results across 18 state-of-the-art LVLMs uncover pronounced vulnerabilities to misleading visual inputs, and our in-depth analyses on MVI-Bench provide actionable insights that can guide the development of more reliable and robust LVLMs. The benchmark and codebase can be accessed at https://github.com/chenyil6/MVI-Bench.