ChatPaper.aiChatPaper

MVI-Bench: Комплексный бенчмарк для оценки устойчивости больших языково-визуальных моделей к вводящим в заблуждение визуальным данным

MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

November 18, 2025
Авторы: Huiyi Chen, Jiawei Peng, Dehai Min, Changchang Sun, Kaijie Chen, Yan Yan, Xu Yang, Lu Cheng
cs.AI

Аннотация

Оценка устойчивости больших визуально-языковых моделей (LVLM) имеет ключевое значение для их дальнейшего развития и ответственного внедрения в реальных приложениях. Однако существующие бенчмарки устойчивости обычно сосредоточены на галлюцинациях или вводящих в заблуждение текстовых входных данных, в значительной степени упуская из виду не менее важную проблему, связанную с misleading визуальными входными данными при оценке визуального понимания. Для заполнения этого важного пробела мы представляем MVI-Bench — первый комплексный бенчмарк, специально разработанный для оценки того, как вводящие в заблуждение визуальные входные данные (Misleading Visual Inputs) подрывают устойчивость LVLM. Основываясь на фундаментальных визуальных примитивах, конструкция MVI-Bench сосредоточена на трех иерархических уровнях misleading визуальных входных данных: визуальное понятие, визуальный атрибут и визуальное отношение. Используя эту таксономию, мы отобрали шесть репрезентативных категорий и составили 1248 экспертно аннотированных вопросно-ответных примеров (VQA). Для облегчения детальной оценки устойчивости мы дополнительно вводим MVI-Чувствительность — новую метрику, характеризующую устойчивость LVLM на гранулярном уровне. Эмпирические результаты, полученные на 18 современных LVLM, выявляют выраженные уязвимости к misleading визуальным входным данным, а наши углубленные анализы на MVI-Bench предоставляют практические insights, которые могут направлять разработку более надежных и устойчивых LVLM. Бенчмарк и кодовая база доступны по адресу https://github.com/chenyil6/MVI-Bench.
English
Evaluating the robustness of Large Vision-Language Models (LVLMs) is essential for their continued development and responsible deployment in real-world applications. However, existing robustness benchmarks typically focus on hallucination or misleading textual inputs, while largely overlooking the equally critical challenge posed by misleading visual inputs in assessing visual understanding. To fill this important gap, we introduce MVI-Bench, the first comprehensive benchmark specially designed for evaluating how Misleading Visual Inputs undermine the robustness of LVLMs. Grounded in fundamental visual primitives, the design of MVI-Bench centers on three hierarchical levels of misleading visual inputs: Visual Concept, Visual Attribute, and Visual Relationship. Using this taxonomy, we curate six representative categories and compile 1,248 expertly annotated VQA instances. To facilitate fine-grained robustness evaluation, we further introduce MVI-Sensitivity, a novel metric that characterizes LVLM robustness at a granular level. Empirical results across 18 state-of-the-art LVLMs uncover pronounced vulnerabilities to misleading visual inputs, and our in-depth analyses on MVI-Bench provide actionable insights that can guide the development of more reliable and robust LVLMs. The benchmark and codebase can be accessed at https://github.com/chenyil6/MVI-Bench.
PDF243December 1, 2025