VisualSimpleQA: Um Benchmark para Avaliação Desacoplada de Grandes Modelos de Visão e Linguagem em Respostas a Perguntas de Busca de Fatos
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering
March 9, 2025
Autores: Yanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang, Qi Li, Ke Xu
cs.AI
Resumo
Modelos de grande escala de visão e linguagem (LVLMs) têm demonstrado conquistas notáveis, mas a geração de respostas não factuais ainda é prevalente em tarefas de questionamento factual (QA). Os benchmarks multimodais atuais para questionamento factual concentram-se principalmente na comparação das saídas dos modelos com respostas verdadeiras, oferecendo insights limitados sobre o desempenho de módulos específicos de cada modalidade. Para preencher essa lacuna, introduzimos o VisualSimpleQA, um benchmark multimodal de questionamento factual com duas características principais. Primeiro, ele permite uma avaliação simplificada e desacoplada dos LVLMs nas modalidades visual e linguística. Segundo, incorpora critérios de dificuldade bem definidos para orientar a anotação humana e facilita a extração de um subconjunto desafiador, o VisualSimpleQA-hard. Experimentos com 15 LVLMs mostram que até mesmo modelos de última geração, como o GPT-4o, alcançam apenas 60%+ de precisão em questionamento factual multimodal no VisualSimpleQA e 30%+ no VisualSimpleQA-hard. Além disso, a avaliação desacoplada entre esses modelos destaca oportunidades significativas de melhoria tanto nos módulos visuais quanto nos linguísticos. O conjunto de dados está disponível em https://huggingface.co/datasets/WYLing/VisualSimpleQA.
English
Large vision-language models (LVLMs) have demonstrated remarkable
achievements, yet the generation of non-factual responses remains prevalent in
fact-seeking question answering (QA). Current multimodal fact-seeking
benchmarks primarily focus on comparing model outputs to ground truth answers,
providing limited insights into the performance of modality-specific modules.
To bridge this gap, we introduce VisualSimpleQA, a multimodal fact-seeking
benchmark with two key features. First, it enables streamlined and decoupled
evaluation of LVLMs in visual and linguistic modalities. Second, it
incorporates well-defined difficulty criteria to guide human annotation and
facilitates the extraction of a challenging subset, VisualSimpleQA-hard.
Experiments on 15 LVLMs show that even state-of-the-art models such as GPT-4o
achieve merely 60%+ correctness in multimodal fact-seeking QA on VisualSimpleQA
and 30%+ on VisualSimpleQA-hard. Furthermore, the decoupled evaluation across
these models highlights substantial opportunities for improvement in both
visual and linguistic modules. The dataset is available at
https://huggingface.co/datasets/WYLing/VisualSimpleQA.Summary
AI-Generated Summary