VisualSimpleQA: Een Benchmark voor Ontkoppelde Evaluatie van Grote Visueel-Taalmodellen in Feitenzoekende Vraagbeantwoording
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering
March 9, 2025
Auteurs: Yanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang, Qi Li, Ke Xu
cs.AI
Samenvatting
Grote visueel-taalkundige modellen (LVLMs) hebben opmerkelijke prestaties laten zien, maar het genereren van niet-feitelijke antwoorden blijft veelvoorkomend bij feitenzoekende vraag-antwoordtaken (QA). Huidige multimodale benchmarks voor feitenzoekende taken richten zich voornamelijk op het vergelijken van modeluitvoer met grondwaarheid-antwoorden, wat beperkte inzichten biedt in de prestaties van modalitiespecifieke modules. Om deze kloof te overbruggen, introduceren we VisualSimpleQA, een multimodale benchmark voor feitenzoekende taken met twee belangrijke kenmerken. Ten eerste maakt het een gestroomlijnde en ontkoppelde evaluatie van LVLMs in visuele en taalkundige modaliteiten mogelijk. Ten tweede bevat het goed gedefinieerde moeilijkheidscriteria om menselijke annotatie te begeleiden en vergemakkelijkt het de extractie van een uitdagende subset, VisualSimpleQA-hard. Experimenten met 15 LVLMs tonen aan dat zelfs state-of-the-art modellen zoals GPT-4o slechts 60%+ correctheid behalen in multimodale feitenzoekende QA op VisualSimpleQA en 30%+ op VisualSimpleQA-hard. Bovendien laat de ontkoppelde evaluatie over deze modellen aanzienlijke verbeteringsmogelijkheden zien in zowel visuele als taalkundige modules. De dataset is beschikbaar op https://huggingface.co/datasets/WYLing/VisualSimpleQA.
English
Large vision-language models (LVLMs) have demonstrated remarkable
achievements, yet the generation of non-factual responses remains prevalent in
fact-seeking question answering (QA). Current multimodal fact-seeking
benchmarks primarily focus on comparing model outputs to ground truth answers,
providing limited insights into the performance of modality-specific modules.
To bridge this gap, we introduce VisualSimpleQA, a multimodal fact-seeking
benchmark with two key features. First, it enables streamlined and decoupled
evaluation of LVLMs in visual and linguistic modalities. Second, it
incorporates well-defined difficulty criteria to guide human annotation and
facilitates the extraction of a challenging subset, VisualSimpleQA-hard.
Experiments on 15 LVLMs show that even state-of-the-art models such as GPT-4o
achieve merely 60%+ correctness in multimodal fact-seeking QA on VisualSimpleQA
and 30%+ on VisualSimpleQA-hard. Furthermore, the decoupled evaluation across
these models highlights substantial opportunities for improvement in both
visual and linguistic modules. The dataset is available at
https://huggingface.co/datasets/WYLing/VisualSimpleQA.Summary
AI-Generated Summary