ChatPaper.aiChatPaper

MVI-Bench: Un Benchmark Completo per Valutare la Robustezza agli Input Visivi Ingannevoli nei LVLM

MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

November 18, 2025
Autori: Huiyi Chen, Jiawei Peng, Dehai Min, Changchang Sun, Kaijie Chen, Yan Yan, Xu Yang, Lu Cheng
cs.AI

Abstract

Valutare la robustezza dei Modelli Linguistici di Grande Dimensione con Componente Visiva (LVLM) è fondamentale per il loro sviluppo continuo e per un impiego responsabile in applicazioni del mondo reale. Tuttavia, i benchmark di robustezza esistenti si concentrano tipicamente su allucinazioni o input testuali fuorvianti, trascurando in larga misura la sfida altrettanto critica posta dagli input visivi fuorvianti nella valutazione della comprensione visiva. Per colmare questa importante lacuna, introduciamo MVI-Bench, il primo benchmark completo specificamente progettato per valutare come gli Input Visivi Fuorvianti minaccino la robustezza degli LVLM. Basandosi su primitive visive fondamentali, la progettazione di MVI-Bench si articola su tre livelli gerarchici di input visivi fuorvianti: Concetto Visivo, Attributo Visivo e Relazione Visiva. Utilizzando questa tassonomia, abbiamo curato sei categorie rappresentative e compilato 1.248 istanze VQA annotate da esperti. Per facilitare una valutazione granulare della robustezza, introduciamo inoltre MVI-Sensitivity, una nuova metrica che caratterizza la robustezza degli LVLM a un livello di dettaglio fine. I risultati empirici ottenuti testando 18 LVLM all'avanguardia rivelano vulnerabilità pronunciate agli input visivi fuorvianti, e le nostre analisi approfondite su MVI-Bench forniscono spunti pratici in grado di guidare lo sviluppo di LVLM più affidabili e robusti. Il benchmark e il codice sono accessibili all'indirizzo https://github.com/chenyil6/MVI-Bench.
English
Evaluating the robustness of Large Vision-Language Models (LVLMs) is essential for their continued development and responsible deployment in real-world applications. However, existing robustness benchmarks typically focus on hallucination or misleading textual inputs, while largely overlooking the equally critical challenge posed by misleading visual inputs in assessing visual understanding. To fill this important gap, we introduce MVI-Bench, the first comprehensive benchmark specially designed for evaluating how Misleading Visual Inputs undermine the robustness of LVLMs. Grounded in fundamental visual primitives, the design of MVI-Bench centers on three hierarchical levels of misleading visual inputs: Visual Concept, Visual Attribute, and Visual Relationship. Using this taxonomy, we curate six representative categories and compile 1,248 expertly annotated VQA instances. To facilitate fine-grained robustness evaluation, we further introduce MVI-Sensitivity, a novel metric that characterizes LVLM robustness at a granular level. Empirical results across 18 state-of-the-art LVLMs uncover pronounced vulnerabilities to misleading visual inputs, and our in-depth analyses on MVI-Bench provide actionable insights that can guide the development of more reliable and robust LVLMs. The benchmark and codebase can be accessed at https://github.com/chenyil6/MVI-Bench.
PDF243December 1, 2025