ChatPaper.aiChatPaper

MVI-Bench: Ein umfassender Benchmark zur Bewertung der Robustheit gegenüber irreführenden visuellen Eingaben in LVLMs

MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

November 18, 2025
papers.authors: Huiyi Chen, Jiawei Peng, Dehai Min, Changchang Sun, Kaijie Chen, Yan Yan, Xu Yang, Lu Cheng
cs.AI

papers.abstract

Die Bewertung der Robustheit großer visuell-sprachlicher Modelle (LVLMs) ist entscheidend für ihre kontinuierliche Entwicklung und den verantwortungsvollen Einsatz in realen Anwendungen. Bisherige Robustheits-Benchmarks konzentrieren sich jedoch typischerweise auf Halluzinationen oder irreführende textuelle Eingaben und übersehen weitgehend die ebenso wichtige Herausforderung, die irreführende visuelle Eingaben für die Bewertung des visuellen Verständnisses darstellen. Um diese bedeutende Lücke zu schließen, stellen wir MVI-Bench vor, den ersten umfassenden Benchmark, der speziell zur Evaluierung entwickelt wurde, wie irreführende visuelle Eingaben die Robustheit von LVLMs untergraben. Basierend auf grundlegenden visuellen Primitive konzentriert sich das Design von MVI-Bench auf drei hierarchische Ebenen irreführender visueller Eingaben: Visuelles Konzept, Visuelles Attribut und Visuelle Beziehung. Anhand dieser Taxonomie haben wir sechs repräsentative Kategorien kuratiert und 1.248 fachkundig annotierte VQA-Instanzen zusammengestellt. Um eine granulare Robustheitsbewertung zu ermöglichen, führen wir zudem MVI-Sensitivity ein, eine neuartige Metrik, die die Robustheit von LVLMs auf feiner Ebene charakterisiert. Empirische Ergebnisse über 18 state-of-the-art LVLMs hinweg decken ausgeprägte Anfälligkeiten gegenüber irreführenden visuellen Eingaben auf, und unsere tiefgehenden Analysen auf MVI-Bench liefern umsetzbare Erkenntnisse, die die Entwicklung zuverlässigerer und robusterer LVLMs leiten können. Der Benchmark und der Codebase sind unter https://github.com/chenyil6/MVI-Bench zugänglich.
English
Evaluating the robustness of Large Vision-Language Models (LVLMs) is essential for their continued development and responsible deployment in real-world applications. However, existing robustness benchmarks typically focus on hallucination or misleading textual inputs, while largely overlooking the equally critical challenge posed by misleading visual inputs in assessing visual understanding. To fill this important gap, we introduce MVI-Bench, the first comprehensive benchmark specially designed for evaluating how Misleading Visual Inputs undermine the robustness of LVLMs. Grounded in fundamental visual primitives, the design of MVI-Bench centers on three hierarchical levels of misleading visual inputs: Visual Concept, Visual Attribute, and Visual Relationship. Using this taxonomy, we curate six representative categories and compile 1,248 expertly annotated VQA instances. To facilitate fine-grained robustness evaluation, we further introduce MVI-Sensitivity, a novel metric that characterizes LVLM robustness at a granular level. Empirical results across 18 state-of-the-art LVLMs uncover pronounced vulnerabilities to misleading visual inputs, and our in-depth analyses on MVI-Bench provide actionable insights that can guide the development of more reliable and robust LVLMs. The benchmark and codebase can be accessed at https://github.com/chenyil6/MVI-Bench.
PDF243December 1, 2025