ChatPaper.aiChatPaper

VisualSimpleQA: Un Benchmark per la Valutazione Disaccoppiata di Modelli Linguistico-Visuali di Grande Scala nel Rispondere a Domande di Ricerca Fattuale

VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering

March 9, 2025
Autori: Yanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang, Qi Li, Ke Xu
cs.AI

Abstract

I grandi modelli visione-linguaggio (LVLM) hanno dimostrato risultati notevoli, tuttavia la generazione di risposte non fattuali rimane prevalente nel question answering (QA) orientato ai fatti. Gli attuali benchmark multimodali per la ricerca di fatti si concentrano principalmente sul confronto tra le uscite dei modelli e le risposte di riferimento, fornendo informazioni limitate sulle prestazioni dei moduli specifici per ciascuna modalità. Per colmare questa lacuna, introduciamo VisualSimpleQA, un benchmark multimodale per la ricerca di fatti con due caratteristiche chiave. In primo luogo, consente una valutazione semplificata e disaccoppiata dei LVLM nelle modalità visiva e linguistica. In secondo luogo, incorpora criteri di difficoltà ben definiti per guidare l'annotazione umana e facilita l'estrazione di un sottoinsieme impegnativo, VisualSimpleQA-hard. Esperimenti su 15 LVLM mostrano che anche modelli all'avanguardia come GPT-4o raggiungono appena una correttezza del 60%+ nel QA multimodale orientato ai fatti su VisualSimpleQA e del 30%+ su VisualSimpleQA-hard. Inoltre, la valutazione disaccoppiata su questi modelli evidenzia ampie opportunità di miglioramento sia nei moduli visivi che linguistici. Il dataset è disponibile all'indirizzo https://huggingface.co/datasets/WYLing/VisualSimpleQA.
English
Large vision-language models (LVLMs) have demonstrated remarkable achievements, yet the generation of non-factual responses remains prevalent in fact-seeking question answering (QA). Current multimodal fact-seeking benchmarks primarily focus on comparing model outputs to ground truth answers, providing limited insights into the performance of modality-specific modules. To bridge this gap, we introduce VisualSimpleQA, a multimodal fact-seeking benchmark with two key features. First, it enables streamlined and decoupled evaluation of LVLMs in visual and linguistic modalities. Second, it incorporates well-defined difficulty criteria to guide human annotation and facilitates the extraction of a challenging subset, VisualSimpleQA-hard. Experiments on 15 LVLMs show that even state-of-the-art models such as GPT-4o achieve merely 60%+ correctness in multimodal fact-seeking QA on VisualSimpleQA and 30%+ on VisualSimpleQA-hard. Furthermore, the decoupled evaluation across these models highlights substantial opportunities for improvement in both visual and linguistic modules. The dataset is available at https://huggingface.co/datasets/WYLing/VisualSimpleQA.
PDF115March 12, 2025