VisualSimpleQA: 사실 탐구 질문 응답에서 대규모 시각-언어 모델의 분리 평가를 위한 벤치마크
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering
March 9, 2025
저자: Yanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang, Qi Li, Ke Xu
cs.AI
초록
대규모 시각-언어 모델(LVLMs)은 놀라운 성과를 보여주었지만, 사실 탐구 질의응답(QA)에서 비사실적인 응답 생성은 여전히 흔히 발생합니다. 현재의 다중모달 사실 탐구 벤치마크는 주로 모델 출력과 정답을 비교하는 데 초점을 맞추어, 모달리티별 모듈의 성능에 대한 통찰을 제한적으로 제공합니다. 이러한 격차를 해소하기 위해, 우리는 VisualSimpleQA라는 두 가지 주요 특징을 가진 다중모달 사실 탐구 벤치마크를 소개합니다. 첫째, 이 벤치마크는 LVLMs의 시각 및 언어 모달리티에 대한 간소화되고 분리된 평가를 가능하게 합니다. 둘째, 잘 정의된 난이도 기준을 통합하여 인간 주석을 안내하고, 도전적인 하위 집합인 VisualSimpleQA-hard의 추출을 용이하게 합니다. 15개의 LVLMs에 대한 실험 결과, GPT-4o와 같은 최첨단 모델조차 VisualSimpleQA에서 다중모달 사실 탐구 QA에서 60% 이상의 정확도를, VisualSimpleQA-hard에서는 30% 이상의 정확도를 달성하는 데 그쳤습니다. 더 나아가, 이러한 모델들에 대한 분리된 평가는 시각 및 언어 모듈 모두에서 상당한 개선의 여지가 있음을 강조합니다. 이 데이터셋은 https://huggingface.co/datasets/WYLing/VisualSimpleQA에서 이용 가능합니다.
English
Large vision-language models (LVLMs) have demonstrated remarkable
achievements, yet the generation of non-factual responses remains prevalent in
fact-seeking question answering (QA). Current multimodal fact-seeking
benchmarks primarily focus on comparing model outputs to ground truth answers,
providing limited insights into the performance of modality-specific modules.
To bridge this gap, we introduce VisualSimpleQA, a multimodal fact-seeking
benchmark with two key features. First, it enables streamlined and decoupled
evaluation of LVLMs in visual and linguistic modalities. Second, it
incorporates well-defined difficulty criteria to guide human annotation and
facilitates the extraction of a challenging subset, VisualSimpleQA-hard.
Experiments on 15 LVLMs show that even state-of-the-art models such as GPT-4o
achieve merely 60%+ correctness in multimodal fact-seeking QA on VisualSimpleQA
and 30%+ on VisualSimpleQA-hard. Furthermore, the decoupled evaluation across
these models highlights substantial opportunities for improvement in both
visual and linguistic modules. The dataset is available at
https://huggingface.co/datasets/WYLing/VisualSimpleQA.Summary
AI-Generated Summary