ChatPaper.aiChatPaper

CSVQA: Un Benchmark Multimodale Cinese per Valutare le Capacità di Ragionamento STEM nei Modelli Linguistici Visivi

CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs

May 30, 2025
Autori: Ai Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song
cs.AI

Abstract

I modelli visione-linguaggio (VLMs) hanno dimostrato progressi significativi nella comprensione multimodale, ma le loro capacità di ragionamento scientifico rimangono inadeguatamente valutate. Gli attuali benchmark multimodali valutano principalmente la comprensione generica delle immagini o il ragionamento guidato dal testo, mancando di contesti scientifici autentici che richiedono l'integrazione di conoscenze specifiche del dominio con l'analisi di evidenze visive. Per colmare questa lacuna, presentiamo CSVQA, un benchmark multimodale diagnostico progettato specificamente per valutare il ragionamento scientifico attraverso risposte a domande visive radicate nel dominio. Il nostro benchmark comprende 1.378 coppie domanda-risposta accuratamente costruite che abbracciano diverse discipline STEM, ciascuna delle quali richiede conoscenze di dominio, integrazione di evidenze visive e ragionamento di ordine superiore. Rispetto ai precedenti benchmark multimodali, CSVQA pone maggiore enfasi sui contenuti scientifici del mondo reale e sul ragionamento complesso. Proponiamo inoltre un protocollo di valutazione rigoroso per valutare sistematicamente se le previsioni del modello sono supportate da passaggi di ragionamento intermedi validi basati su spiegazioni curate. La nostra valutazione completa di 15 VLMs su questo benchmark rivela notevoli disparità di prestazioni, poiché anche il modello proprietario più performante raggiunge solo una precisione del 49,6%. Questa evidenza empirica sottolinea la pressante necessità di avanzare le capacità di ragionamento scientifico nei VLMs. Il nostro CSVQA è disponibile all'indirizzo https://huggingface.co/datasets/Skywork/CSVQA.
English
Vision-Language Models (VLMs) have demonstrated remarkable progress in multimodal understanding, yet their capabilities for scientific reasoning remains inadequately assessed. Current multimodal benchmarks predominantly evaluate generic image comprehension or text-driven reasoning, lacking authentic scientific contexts that require domain-specific knowledge integration with visual evidence analysis. To fill this gap, we present CSVQA, a diagnostic multimodal benchmark specifically designed for evaluating scientific reasoning through domain-grounded visual question answering.Our benchmark features 1,378 carefully constructed question-answer pairs spanning diverse STEM disciplines, each demanding domain knowledge, integration of visual evidence, and higher-order reasoning. Compared to prior multimodal benchmarks, CSVQA places greater emphasis on real-world scientific content and complex reasoning.We additionally propose a rigorous evaluation protocol to systematically assess whether model predictions are substantiated by valid intermediate reasoning steps based on curated explanations. Our comprehensive evaluation of 15 VLMs on this benchmark reveals notable performance disparities, as even the top-ranked proprietary model attains only 49.6\% accuracy.This empirical evidence underscores the pressing need for advancing scientific reasoning capabilities in VLMs. Our CSVQA is released at https://huggingface.co/datasets/Skywork/CSVQA.
PDF494June 4, 2025