VisualSimpleQA: Een Benchmark voor Ontkoppelde Evaluatie van Grote Visueel-Taalmodellen in Feitenzoekende Vraagbeantwoording

Samenvatting

Grote visueel-taalkundige modellen (LVLMs) hebben opmerkelijke prestaties laten zien, maar het genereren van niet-feitelijke antwoorden blijft veelvoorkomend bij feitenzoekende vraag-antwoordtaken (QA). Huidige multimodale benchmarks voor feitenzoekende taken richten zich voornamelijk op het vergelijken van modeluitvoer met grondwaarheid-antwoorden, wat beperkte inzichten biedt in de prestaties van modalitiespecifieke modules. Om deze kloof te overbruggen, introduceren we VisualSimpleQA, een multimodale benchmark voor feitenzoekende taken met twee belangrijke kenmerken. Ten eerste maakt het een gestroomlijnde en ontkoppelde evaluatie van LVLMs in visuele en taalkundige modaliteiten mogelijk. Ten tweede bevat het goed gedefinieerde moeilijkheidscriteria om menselijke annotatie te begeleiden en vergemakkelijkt het de extractie van een uitdagende subset, VisualSimpleQA-hard. Experimenten met 15 LVLMs tonen aan dat zelfs state-of-the-art modellen zoals GPT-4o slechts 60%+ correctheid behalen in multimodale feitenzoekende QA op VisualSimpleQA en 30%+ op VisualSimpleQA-hard. Bovendien laat de ontkoppelde evaluatie over deze modellen aanzienlijke verbeteringsmogelijkheden zien in zowel visuele als taalkundige modules. De dataset is beschikbaar op https://huggingface.co/datasets/WYLing/VisualSimpleQA.

English

Large vision-language models (LVLMs) have demonstrated remarkable achievements, yet the generation of non-factual responses remains prevalent in fact-seeking question answering (QA). Current multimodal fact-seeking benchmarks primarily focus on comparing model outputs to ground truth answers, providing limited insights into the performance of modality-specific modules. To bridge this gap, we introduce VisualSimpleQA, a multimodal fact-seeking benchmark with two key features. First, it enables streamlined and decoupled evaluation of LVLMs in visual and linguistic modalities. Second, it incorporates well-defined difficulty criteria to guide human annotation and facilitates the extraction of a challenging subset, VisualSimpleQA-hard. Experiments on 15 LVLMs show that even state-of-the-art models such as GPT-4o achieve merely 60%+ correctness in multimodal fact-seeking QA on VisualSimpleQA and 30%+ on VisualSimpleQA-hard. Furthermore, the decoupled evaluation across these models highlights substantial opportunities for improvement in both visual and linguistic modules. The dataset is available at https://huggingface.co/datasets/WYLing/VisualSimpleQA.

VisualSimpleQA: Een Benchmark voor Ontkoppelde Evaluatie van Grote Visueel-Taalmodellen in Feitenzoekende Vraagbeantwoording

VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering

Samenvatting

Support