CSVQA : Un benchmark multimodal chinois pour évaluer les capacités de raisonnement STEM des modèles de langage visuel
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs
May 30, 2025
Auteurs: Ai Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song
cs.AI
Résumé
Les modèles vision-langage (VLMs) ont démontré des progrès remarquables dans la compréhension multimodale, mais leurs capacités en matière de raisonnement scientifique restent insuffisamment évaluées. Les benchmarks multimodaux actuels évaluent principalement la compréhension générique d'images ou le raisonnement basé sur le texte, manquant de contextes scientifiques authentiques qui nécessitent l'intégration de connaissances spécifiques à un domaine avec l'analyse de preuves visuelles. Pour combler cette lacune, nous présentons CSVQA, un benchmark multimodal diagnostique spécialement conçu pour évaluer le raisonnement scientifique à travers des questions-réponses visuelles ancrées dans un domaine. Notre benchmark comprend 1 378 paires de questions-réponses soigneusement construites couvrant diverses disciplines STEM, chacune exigeant des connaissances du domaine, l'intégration de preuves visuelles et un raisonnement d'ordre supérieur. Par rapport aux benchmarks multimodaux précédents, CSVQA accorde une plus grande importance au contenu scientifique réel et au raisonnement complexe. Nous proposons en outre un protocole d'évaluation rigoureux pour évaluer systématiquement si les prédictions des modèles sont étayées par des étapes de raisonnement intermédiaires valides basées sur des explications soigneusement sélectionnées. Notre évaluation complète de 15 VLMs sur ce benchmark révèle des disparités de performances notables, car même le modèle propriétaire le mieux classé n'atteint qu'une précision de 49,6 %. Ces preuves empiriques soulignent le besoin pressant d'améliorer les capacités de raisonnement scientifique des VLMs. Notre CSVQA est disponible à l'adresse suivante : https://huggingface.co/datasets/Skywork/CSVQA.
English
Vision-Language Models (VLMs) have demonstrated remarkable progress in
multimodal understanding, yet their capabilities for scientific reasoning
remains inadequately assessed. Current multimodal benchmarks predominantly
evaluate generic image comprehension or text-driven reasoning, lacking
authentic scientific contexts that require domain-specific knowledge
integration with visual evidence analysis. To fill this gap, we present CSVQA,
a diagnostic multimodal benchmark specifically designed for evaluating
scientific reasoning through domain-grounded visual question answering.Our
benchmark features 1,378 carefully constructed question-answer pairs spanning
diverse STEM disciplines, each demanding domain knowledge, integration of
visual evidence, and higher-order reasoning. Compared to prior multimodal
benchmarks, CSVQA places greater emphasis on real-world scientific content and
complex reasoning.We additionally propose a rigorous evaluation protocol to
systematically assess whether model predictions are substantiated by valid
intermediate reasoning steps based on curated explanations. Our comprehensive
evaluation of 15 VLMs on this benchmark reveals notable performance
disparities, as even the top-ranked proprietary model attains only 49.6\%
accuracy.This empirical evidence underscores the pressing need for advancing
scientific reasoning capabilities in VLMs. Our CSVQA is released at
https://huggingface.co/datasets/Skywork/CSVQA.