CSVQA: Um Benchmark Multimodal Chinês para Avaliação de Capacidades de Raciocínio STEM em Modelos de Linguagem Visual
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs
May 30, 2025
Autores: Ai Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song
cs.AI
Resumo
Os Modelos de Visão-Linguagem (VLMs) têm demonstrado progressos notáveis na compreensão multimodal, mas suas capacidades para raciocínio científico permanecem insuficientemente avaliadas. Os benchmarks multimodais atuais avaliam predominantemente a compreensão genérica de imagens ou o raciocínio baseado em texto, carecendo de contextos científicos autênticos que exigem a integração de conhecimento específico do domínio com a análise de evidências visuais. Para preencher essa lacuna, apresentamos o CSVQA, um benchmark multimodal diagnóstico especificamente projetado para avaliar o raciocínio científico por meio de respostas a perguntas visuais fundamentadas no domínio. Nosso benchmark apresenta 1.378 pares de perguntas e respostas cuidadosamente construídos, abrangendo diversas disciplinas STEM, cada um exigindo conhecimento do domínio, integração de evidências visuais e raciocínio de ordem superior. Em comparação com benchmarks multimodais anteriores, o CSVQA dá maior ênfase ao conteúdo científico do mundo real e ao raciocínio complexo. Além disso, propomos um protocolo de avaliação rigoroso para avaliar sistematicamente se as previsões dos modelos são fundamentadas por etapas intermediárias de raciocínio válidas com base em explicações curadas. Nossa avaliação abrangente de 15 VLMs neste benchmark revela disparidades notáveis de desempenho, já que mesmo o modelo proprietário mais bem classificado atinge apenas 49,6% de precisão. Essa evidência empírica ressalta a necessidade urgente de avançar as capacidades de raciocínio científico nos VLMs. Nosso CSVQA está disponível em https://huggingface.co/datasets/Skywork/CSVQA.
English
Vision-Language Models (VLMs) have demonstrated remarkable progress in
multimodal understanding, yet their capabilities for scientific reasoning
remains inadequately assessed. Current multimodal benchmarks predominantly
evaluate generic image comprehension or text-driven reasoning, lacking
authentic scientific contexts that require domain-specific knowledge
integration with visual evidence analysis. To fill this gap, we present CSVQA,
a diagnostic multimodal benchmark specifically designed for evaluating
scientific reasoning through domain-grounded visual question answering.Our
benchmark features 1,378 carefully constructed question-answer pairs spanning
diverse STEM disciplines, each demanding domain knowledge, integration of
visual evidence, and higher-order reasoning. Compared to prior multimodal
benchmarks, CSVQA places greater emphasis on real-world scientific content and
complex reasoning.We additionally propose a rigorous evaluation protocol to
systematically assess whether model predictions are substantiated by valid
intermediate reasoning steps based on curated explanations. Our comprehensive
evaluation of 15 VLMs on this benchmark reveals notable performance
disparities, as even the top-ranked proprietary model attains only 49.6\%
accuracy.This empirical evidence underscores the pressing need for advancing
scientific reasoning capabilities in VLMs. Our CSVQA is released at
https://huggingface.co/datasets/Skywork/CSVQA.