ChatPaper.aiChatPaper

MVI-Bench: Un Punto de Referencia Integral para Evaluar la Robustez frente a Entradas Visuales Engañosas en LVLMs

MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

November 18, 2025
Autores: Huiyi Chen, Jiawei Peng, Dehai Min, Changchang Sun, Kaijie Chen, Yan Yan, Xu Yang, Lu Cheng
cs.AI

Resumen

Evaluar la robustez de los Modelos Grandes de Visión y Lenguaje (LVLM, por sus siglas en inglés) es esencial para su desarrollo continuo y su implementación responsable en aplicaciones del mundo real. Sin embargo, los puntos de referencia de robustez existentes suelen centrarse en alucinaciones o entradas de texto engañosas, pasando por alto en gran medida el desafío igualmente crítico que plantean las entradas visuales engañosas en la evaluación de la comprensión visual. Para llenar este importante vacío, presentamos MVI-Bench, el primer punto de referencia integral diseñado específicamente para evaluar cómo las Entradas Visuales Engañosas (MVI) socavan la robustez de los LVLM. Basado en primitivas visuales fundamentales, el diseño de MVI-Bench se centra en tres niveles jerárquicos de entradas visuales engañosas: Concepto Visual, Atributo Visual y Relación Visual. Utilizando esta taxonomía, seleccionamos seis categorías representativas y compilamos 1,248 instancias de Preguntas y Respuestas Visuales (VQA) anotadas por expertos. Para facilitar una evaluación de robustez detallada, presentamos además MVI-Sensibilidad, una nueva métrica que caracteriza la robustez de los LVLM a un nivel granular. Los resultados empíricos en 18 LVLM de vanguardia revelan vulnerabilidades pronunciadas a las entradas visuales engañosas, y nuestros análisis en profundidad en MVI-Bench proporcionan información práctica que puede guiar el desarrollo de LVLM más confiables y robustos. El punto de referencia y el código base se pueden acceder en https://github.com/chenyil6/MVI-Bench.
English
Evaluating the robustness of Large Vision-Language Models (LVLMs) is essential for their continued development and responsible deployment in real-world applications. However, existing robustness benchmarks typically focus on hallucination or misleading textual inputs, while largely overlooking the equally critical challenge posed by misleading visual inputs in assessing visual understanding. To fill this important gap, we introduce MVI-Bench, the first comprehensive benchmark specially designed for evaluating how Misleading Visual Inputs undermine the robustness of LVLMs. Grounded in fundamental visual primitives, the design of MVI-Bench centers on three hierarchical levels of misleading visual inputs: Visual Concept, Visual Attribute, and Visual Relationship. Using this taxonomy, we curate six representative categories and compile 1,248 expertly annotated VQA instances. To facilitate fine-grained robustness evaluation, we further introduce MVI-Sensitivity, a novel metric that characterizes LVLM robustness at a granular level. Empirical results across 18 state-of-the-art LVLMs uncover pronounced vulnerabilities to misleading visual inputs, and our in-depth analyses on MVI-Bench provide actionable insights that can guide the development of more reliable and robust LVLMs. The benchmark and codebase can be accessed at https://github.com/chenyil6/MVI-Bench.
PDF243December 1, 2025