VisualSimpleQA : Un Benchmark pour l'Évaluation Découplée des Grands Modèles Vision-Langage dans la Réponse à des Questions Factuelles
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering
March 9, 2025
Auteurs: Yanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang, Qi Li, Ke Xu
cs.AI
Résumé
Les grands modèles vision-langage (LVLMs) ont démontré des réalisations remarquables, mais la génération de réponses non factuelles reste prévalente dans les tâches de question-réponse (QA) axées sur les faits. Les benchmarks multimodaux actuels pour la recherche de faits se concentrent principalement sur la comparaison des sorties des modèles avec des réponses de référence, offrant des insights limités sur la performance des modules spécifiques à chaque modalité. Pour combler cette lacune, nous introduisons VisualSimpleQA, un benchmark multimodal de recherche de faits avec deux caractéristiques clés. Premièrement, il permet une évaluation simplifiée et découplée des LVLMs dans les modalités visuelle et linguistique. Deuxièmement, il intègre des critères de difficulté bien définis pour guider l'annotation humaine et faciliter l'extraction d'un sous-ensemble difficile, VisualSimpleQA-hard. Les expériences sur 15 LVLMs montrent que même les modèles de pointe comme GPT-4o atteignent à peine plus de 60% de précision dans les tâches de QA multimodales sur VisualSimpleQA et plus de 30% sur VisualSimpleQA-hard. De plus, l'évaluation découplée à travers ces modèles met en évidence des opportunités substantielles d'amélioration dans les modules visuels et linguistiques. Le dataset est disponible à l'adresse suivante : https://huggingface.co/datasets/WYLing/VisualSimpleQA.
English
Large vision-language models (LVLMs) have demonstrated remarkable
achievements, yet the generation of non-factual responses remains prevalent in
fact-seeking question answering (QA). Current multimodal fact-seeking
benchmarks primarily focus on comparing model outputs to ground truth answers,
providing limited insights into the performance of modality-specific modules.
To bridge this gap, we introduce VisualSimpleQA, a multimodal fact-seeking
benchmark with two key features. First, it enables streamlined and decoupled
evaluation of LVLMs in visual and linguistic modalities. Second, it
incorporates well-defined difficulty criteria to guide human annotation and
facilitates the extraction of a challenging subset, VisualSimpleQA-hard.
Experiments on 15 LVLMs show that even state-of-the-art models such as GPT-4o
achieve merely 60%+ correctness in multimodal fact-seeking QA on VisualSimpleQA
and 30%+ on VisualSimpleQA-hard. Furthermore, the decoupled evaluation across
these models highlights substantial opportunities for improvement in both
visual and linguistic modules. The dataset is available at
https://huggingface.co/datasets/WYLing/VisualSimpleQA.Summary
AI-Generated Summary