ChatPaper.aiChatPaper

VisualSimpleQA : Un Benchmark pour l'Évaluation Découplée des Grands Modèles Vision-Langage dans la Réponse à des Questions Factuelles

VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering

March 9, 2025
Auteurs: Yanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang, Qi Li, Ke Xu
cs.AI

Résumé

Les grands modèles vision-langage (LVLMs) ont démontré des réalisations remarquables, mais la génération de réponses non factuelles reste prévalente dans les tâches de question-réponse (QA) axées sur les faits. Les benchmarks multimodaux actuels pour la recherche de faits se concentrent principalement sur la comparaison des sorties des modèles avec des réponses de référence, offrant des insights limités sur la performance des modules spécifiques à chaque modalité. Pour combler cette lacune, nous introduisons VisualSimpleQA, un benchmark multimodal de recherche de faits avec deux caractéristiques clés. Premièrement, il permet une évaluation simplifiée et découplée des LVLMs dans les modalités visuelle et linguistique. Deuxièmement, il intègre des critères de difficulté bien définis pour guider l'annotation humaine et faciliter l'extraction d'un sous-ensemble difficile, VisualSimpleQA-hard. Les expériences sur 15 LVLMs montrent que même les modèles de pointe comme GPT-4o atteignent à peine plus de 60% de précision dans les tâches de QA multimodales sur VisualSimpleQA et plus de 30% sur VisualSimpleQA-hard. De plus, l'évaluation découplée à travers ces modèles met en évidence des opportunités substantielles d'amélioration dans les modules visuels et linguistiques. Le dataset est disponible à l'adresse suivante : https://huggingface.co/datasets/WYLing/VisualSimpleQA.
English
Large vision-language models (LVLMs) have demonstrated remarkable achievements, yet the generation of non-factual responses remains prevalent in fact-seeking question answering (QA). Current multimodal fact-seeking benchmarks primarily focus on comparing model outputs to ground truth answers, providing limited insights into the performance of modality-specific modules. To bridge this gap, we introduce VisualSimpleQA, a multimodal fact-seeking benchmark with two key features. First, it enables streamlined and decoupled evaluation of LVLMs in visual and linguistic modalities. Second, it incorporates well-defined difficulty criteria to guide human annotation and facilitates the extraction of a challenging subset, VisualSimpleQA-hard. Experiments on 15 LVLMs show that even state-of-the-art models such as GPT-4o achieve merely 60%+ correctness in multimodal fact-seeking QA on VisualSimpleQA and 30%+ on VisualSimpleQA-hard. Furthermore, the decoupled evaluation across these models highlights substantial opportunities for improvement in both visual and linguistic modules. The dataset is available at https://huggingface.co/datasets/WYLing/VisualSimpleQA.

Summary

AI-Generated Summary

PDF115March 12, 2025