MVI-Bench: Um Benchmark Abrangente para Avaliar a Robustez a Entradas Visuais Enganosas em LVLMs

Resumo

A avaliação da robustez dos Grandes Modelos de Visão e Linguagem (LVLMs) é essencial para o seu desenvolvimento contínuo e implementação responsável em aplicações do mundo real. No entanto, os pontos de referência de robustez existentes focam-se tipicamente em alucinações ou em entradas textuais enganosas, ignorando em grande medida o desafio igualmente crítico colocado por entradas visuais enganosas na avaliação da compreensão visual. Para preencher esta lacuna importante, introduzimos o MVI-Bench, o primeiro ponto de referência abrangente concebido especificamente para avaliar como as Entradas Visuais Enganosas comprometem a robustez dos LVLMs. Baseado em primitivos visuais fundamentais, o desenho do MVI-Bench centra-se em três níveis hierárquicos de entradas visuais enganosas: Conceito Visual, Atributo Visual e Relação Visual. Utilizando esta taxonomia, selecionámos seis categorias representativas e compilámos 1.248 instâncias de Pergunta-Resposta Visual (VQA) anotadas por especialistas. Para facilitar uma avaliação de robustez de granularidade fina, introduzimos ainda a MVI-Sensibilidade, uma nova métrica que caracteriza a robustez dos LVLMs a um nível granular. Os resultados empíricos obtidos com 18 LVLMs de última geração revelam vulnerabilidades pronunciadas a entradas visuais enganosas, e as nossas análises aprofundadas no MVI-Bench fornecem perspetivas acionáveis que podem orientar o desenvolvimento de LVLMs mais fiáveis e robustos. O ponto de referência e a base de código podem ser acedidos em https://github.com/chenyil6/MVI-Bench.

English

Evaluating the robustness of Large Vision-Language Models (LVLMs) is essential for their continued development and responsible deployment in real-world applications. However, existing robustness benchmarks typically focus on hallucination or misleading textual inputs, while largely overlooking the equally critical challenge posed by misleading visual inputs in assessing visual understanding. To fill this important gap, we introduce MVI-Bench, the first comprehensive benchmark specially designed for evaluating how Misleading Visual Inputs undermine the robustness of LVLMs. Grounded in fundamental visual primitives, the design of MVI-Bench centers on three hierarchical levels of misleading visual inputs: Visual Concept, Visual Attribute, and Visual Relationship. Using this taxonomy, we curate six representative categories and compile 1,248 expertly annotated VQA instances. To facilitate fine-grained robustness evaluation, we further introduce MVI-Sensitivity, a novel metric that characterizes LVLM robustness at a granular level. Empirical results across 18 state-of-the-art LVLMs uncover pronounced vulnerabilities to misleading visual inputs, and our in-depth analyses on MVI-Bench provide actionable insights that can guide the development of more reliable and robust LVLMs. The benchmark and codebase can be accessed at https://github.com/chenyil6/MVI-Bench.

MVI-Bench: Um Benchmark Abrangente para Avaliar a Robustez a Entradas Visuais Enganosas em LVLMs

MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

Resumo

Support