CSVQA : Un benchmark multimodal chinois pour évaluer les capacités de raisonnement STEM des modèles de langage visuel

papers.abstract

Les modèles vision-langage (VLMs) ont démontré des progrès remarquables dans la compréhension multimodale, mais leurs capacités en matière de raisonnement scientifique restent insuffisamment évaluées. Les benchmarks multimodaux actuels évaluent principalement la compréhension générique d'images ou le raisonnement basé sur le texte, manquant de contextes scientifiques authentiques qui nécessitent l'intégration de connaissances spécifiques à un domaine avec l'analyse de preuves visuelles. Pour combler cette lacune, nous présentons CSVQA, un benchmark multimodal diagnostique spécialement conçu pour évaluer le raisonnement scientifique à travers des questions-réponses visuelles ancrées dans un domaine. Notre benchmark comprend 1 378 paires de questions-réponses soigneusement construites couvrant diverses disciplines STEM, chacune exigeant des connaissances du domaine, l'intégration de preuves visuelles et un raisonnement d'ordre supérieur. Par rapport aux benchmarks multimodaux précédents, CSVQA accorde une plus grande importance au contenu scientifique réel et au raisonnement complexe. Nous proposons en outre un protocole d'évaluation rigoureux pour évaluer systématiquement si les prédictions des modèles sont étayées par des étapes de raisonnement intermédiaires valides basées sur des explications soigneusement sélectionnées. Notre évaluation complète de 15 VLMs sur ce benchmark révèle des disparités de performances notables, car même le modèle propriétaire le mieux classé n'atteint qu'une précision de 49,6 %. Ces preuves empiriques soulignent le besoin pressant d'améliorer les capacités de raisonnement scientifique des VLMs. Notre CSVQA est disponible à l'adresse suivante : https://huggingface.co/datasets/Skywork/CSVQA.

English

Vision-Language Models (VLMs) have demonstrated remarkable progress in multimodal understanding, yet their capabilities for scientific reasoning remains inadequately assessed. Current multimodal benchmarks predominantly evaluate generic image comprehension or text-driven reasoning, lacking authentic scientific contexts that require domain-specific knowledge integration with visual evidence analysis. To fill this gap, we present CSVQA, a diagnostic multimodal benchmark specifically designed for evaluating scientific reasoning through domain-grounded visual question answering.Our benchmark features 1,378 carefully constructed question-answer pairs spanning diverse STEM disciplines, each demanding domain knowledge, integration of visual evidence, and higher-order reasoning. Compared to prior multimodal benchmarks, CSVQA places greater emphasis on real-world scientific content and complex reasoning.We additionally propose a rigorous evaluation protocol to systematically assess whether model predictions are substantiated by valid intermediate reasoning steps based on curated explanations. Our comprehensive evaluation of 15 VLMs on this benchmark reveals notable performance disparities, as even the top-ranked proprietary model attains only 49.6\% accuracy.This empirical evidence underscores the pressing need for advancing scientific reasoning capabilities in VLMs. Our CSVQA is released at https://huggingface.co/datasets/Skywork/CSVQA.

CSVQA : Un benchmark multimodal chinois pour évaluer les capacités de raisonnement STEM des modèles de langage visuel

CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs

papers.abstract

Support