ChatPaper.aiChatPaper

MVI-Bench: Een Uitgebreide Benchmark voor het Evalueren van Robuustheid tegen Misleidende Visuele Inputs in LVLM's

MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

November 18, 2025
Auteurs: Huiyi Chen, Jiawei Peng, Dehai Min, Changchang Sun, Kaijie Chen, Yan Yan, Xu Yang, Lu Cheng
cs.AI

Samenvatting

Het evalueren van de robuustheid van Large Vision-Language Models (LVLM's) is essentieel voor hun verdere ontwikkeling en verantwoorde inzet in real-world toepassingen. Bestaande robuustheidsbenchmarks richten zich echter doorgaans op hallucinaties of misleidende tekstuele inputs, waarbij de even kritieke uitdaging van misleidende visuele inputs voor het beoordelen van visueel begrip grotendeels over het hoofd wordt gezien. Om deze belangrijke leemte te vullen, introduceren we MVI-Bench, de eerste uitgebreide benchmark die speciaal is ontworpen om te evalueren hoe Misleidende Visuele Inputs de robuustheid van LVLM's ondermijnen. Gebaseerd op fundamentele visuele primitieven, richt het ontwerp van MVI-Bench zich op drie hiërarchische niveaus van misleidende visuele inputs: Visueel Concept, Visueel Attribuut en Visuele Relatie. Op basis van deze taxonomie hebben we zes representatieve categorieën samengesteld en 1.248 deskundig geannoteerde VQA-instanties (Visual Question Answering) verzameld. Om een fijnmazige robuustheidsevaluatie te vergemakkelijken, introduceren we verder MVI-Gevoeligheid, een nieuwe metriek die de robuustheid van LVLM's op een gedetailleerd niveau karakteriseert. Empirische resultaten van 18 state-of-the-art LVLM's onthullen aanzienlijke kwetsbaarheden voor misleidende visuele inputs, en onze diepgaande analyses op MVI-Bench bieden praktische inzichten die de ontwikkeling van betrouwbaardere en robuustere LVLM's kunnen sturen. De benchmark en codebase zijn toegankelijk via https://github.com/chenyil6/MVI-Bench.
English
Evaluating the robustness of Large Vision-Language Models (LVLMs) is essential for their continued development and responsible deployment in real-world applications. However, existing robustness benchmarks typically focus on hallucination or misleading textual inputs, while largely overlooking the equally critical challenge posed by misleading visual inputs in assessing visual understanding. To fill this important gap, we introduce MVI-Bench, the first comprehensive benchmark specially designed for evaluating how Misleading Visual Inputs undermine the robustness of LVLMs. Grounded in fundamental visual primitives, the design of MVI-Bench centers on three hierarchical levels of misleading visual inputs: Visual Concept, Visual Attribute, and Visual Relationship. Using this taxonomy, we curate six representative categories and compile 1,248 expertly annotated VQA instances. To facilitate fine-grained robustness evaluation, we further introduce MVI-Sensitivity, a novel metric that characterizes LVLM robustness at a granular level. Empirical results across 18 state-of-the-art LVLMs uncover pronounced vulnerabilities to misleading visual inputs, and our in-depth analyses on MVI-Bench provide actionable insights that can guide the development of more reliable and robust LVLMs. The benchmark and codebase can be accessed at https://github.com/chenyil6/MVI-Bench.
PDF243December 1, 2025