VisualSimpleQA: Бенчмарк для раздельной оценки крупных визуально-языковых моделей в задаче поиска ответов на фактологические вопросы
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering
March 9, 2025
Авторы: Yanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang, Qi Li, Ke Xu
cs.AI
Аннотация
Крупные модели, работающие с визуальными и языковыми данными (LVLMs), демонстрируют впечатляющие достижения, однако генерация недостоверных ответов остается распространенной проблемой в задачах поиска фактов (QA). Современные мультимодальные бенчмарки для поиска фактов в основном сосредоточены на сравнении выходных данных моделей с эталонными ответами, что предоставляет ограниченные сведения о производительности модулей, специфичных для каждой модальности. Чтобы устранить этот пробел, мы представляем VisualSimpleQA — мультимодальный бенчмарк для поиска фактов, обладающий двумя ключевыми особенностями. Во-первых, он позволяет проводить упрощенную и раздельную оценку LVLMs в визуальной и языковой модальностях. Во-вторых, он включает четко определенные критерии сложности, которые направляют аннотирование человеком и облегчают выделение сложного подмножества — VisualSimpleQA-hard. Эксперименты с 15 LVLMs показывают, что даже передовые модели, такие как GPT-4o, достигают лишь 60%+ точности в мультимодальном поиске фактов на VisualSimpleQA и 30%+ на VisualSimpleQA-hard. Более того, раздельная оценка этих моделей подчеркивает значительные возможности для улучшения как визуальных, так и языковых модулей. Набор данных доступен по адресу https://huggingface.co/datasets/WYLing/VisualSimpleQA.
English
Large vision-language models (LVLMs) have demonstrated remarkable
achievements, yet the generation of non-factual responses remains prevalent in
fact-seeking question answering (QA). Current multimodal fact-seeking
benchmarks primarily focus on comparing model outputs to ground truth answers,
providing limited insights into the performance of modality-specific modules.
To bridge this gap, we introduce VisualSimpleQA, a multimodal fact-seeking
benchmark with two key features. First, it enables streamlined and decoupled
evaluation of LVLMs in visual and linguistic modalities. Second, it
incorporates well-defined difficulty criteria to guide human annotation and
facilitates the extraction of a challenging subset, VisualSimpleQA-hard.
Experiments on 15 LVLMs show that even state-of-the-art models such as GPT-4o
achieve merely 60%+ correctness in multimodal fact-seeking QA on VisualSimpleQA
and 30%+ on VisualSimpleQA-hard. Furthermore, the decoupled evaluation across
these models highlights substantial opportunities for improvement in both
visual and linguistic modules. The dataset is available at
https://huggingface.co/datasets/WYLing/VisualSimpleQA.Summary
AI-Generated Summary