ChatPaper.aiChatPaper

MVI-Bench : Un Benchmark Complet pour l'Évaluation de la Robustesse face aux Entrées Visuelles Trompeuses dans les LVLM

MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

November 18, 2025
papers.authors: Huiyi Chen, Jiawei Peng, Dehai Min, Changchang Sun, Kaijie Chen, Yan Yan, Xu Yang, Lu Cheng
cs.AI

papers.abstract

L'évaluation de la robustesse des Grands Modèles Vision-Langage (LVLM) est essentielle pour leur développement continu et leur déploiement responsable dans des applications réelles. Cependant, les benchmarks de robustesse existants se concentrent généralement sur les hallucinations ou les entrées textuelles trompeuses, tout en négligeant largement le défi tout aussi critique posé par les entrées visuelles trompeuses dans l'évaluation de la compréhension visuelle. Pour combler cette importante lacune, nous présentons MVI-Bench, le premier benchmark complet spécialement conçu pour évaluer comment les Entrées Visuelles Trompeuses (MVI) compromettent la robustesse des LVLM. Fondée sur des primitives visuelles fondamentales, la conception de MVI-Bench s'articule autour de trois niveaux hiérarchiques d'entrées visuelles trompeuses : Concept Visuel, Attribut Visuel et Relation Visuelle. En utilisant cette taxonomie, nous avons constitué six catégories représentatives et compilé 1 248 instances de questions-réponses visuelles (VQA) expertement annotées. Pour faciliter une évaluation granulaire de la robustesse, nous introduisons également MVI-Sensitivity, une nouvelle métrique qui caractérise la robustesse des LVLM à un niveau fin. Les résultats empiriques obtenus sur 18 LVLM à la pointe révèlent des vulnérabilités prononcées face aux entrées visuelles trompeuses, et nos analyses approfondies sur MVI-Bench fournissent des insights actionnables pouvant guider le développement de LVLM plus fiables et robustes. Le benchmark et le codebase sont accessibles à l'adresse https://github.com/chenyil6/MVI-Bench.
English
Evaluating the robustness of Large Vision-Language Models (LVLMs) is essential for their continued development and responsible deployment in real-world applications. However, existing robustness benchmarks typically focus on hallucination or misleading textual inputs, while largely overlooking the equally critical challenge posed by misleading visual inputs in assessing visual understanding. To fill this important gap, we introduce MVI-Bench, the first comprehensive benchmark specially designed for evaluating how Misleading Visual Inputs undermine the robustness of LVLMs. Grounded in fundamental visual primitives, the design of MVI-Bench centers on three hierarchical levels of misleading visual inputs: Visual Concept, Visual Attribute, and Visual Relationship. Using this taxonomy, we curate six representative categories and compile 1,248 expertly annotated VQA instances. To facilitate fine-grained robustness evaluation, we further introduce MVI-Sensitivity, a novel metric that characterizes LVLM robustness at a granular level. Empirical results across 18 state-of-the-art LVLMs uncover pronounced vulnerabilities to misleading visual inputs, and our in-depth analyses on MVI-Bench provide actionable insights that can guide the development of more reliable and robust LVLMs. The benchmark and codebase can be accessed at https://github.com/chenyil6/MVI-Bench.
PDF243December 1, 2025