ChatPaper.aiChatPaper

CSVQA: VLMs의 STEM 추론 능력 평가를 위한 중국어 멀티모달 벤치마크

CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs

May 30, 2025
저자: Ai Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song
cs.AI

초록

비전-언어 모델(VLMs)은 다중모달 이해에서 놀라운 진전을 보여왔으나, 과학적 추론 능력에 대한 평가는 여전히 미흡한 상태이다. 현재의 다중모달 벤치마크는 주로 일반적인 이미지 이해나 텍스트 기반 추론을 평가하는 데 초점을 맞추고 있어, 시각적 증거 분석과 도메인 특화 지식 통합을 요구하는 진정한 과학적 맥락이 부족하다. 이러한 격차를 메우기 위해, 우리는 도메인 기반 시각적 질의응답을 통해 과학적 추론을 평가하기 위해 특별히 설계된 진단적 다중모달 벤치마크인 CSVQA를 제안한다. 우리의 벤치마크는 다양한 STEM 분야에 걸쳐 1,378개의 신중하게 구성된 질문-답변 쌍을 포함하며, 각각 도메인 지식, 시각적 증거 통합, 고차원적 추론을 요구한다. 기존의 다중모달 벤치마크와 비교하여, CSVQA는 실제 과학적 내용과 복잡한 추론에 더 큰 중점을 둔다. 또한, 우리는 모델 예측이 선별된 설명을 기반으로 유효한 중간 추론 단계에 의해 뒷받침되는지를 체계적으로 평가하기 위한 엄격한 평가 프로토콜을 제안한다. 이 벤치마크에서 15개의 VLM을 종합적으로 평가한 결과, 상위 순위의 독점 모델조차 49.6%의 정확도에 그치는 등 주목할 만한 성능 격차가 나타났다. 이러한 실증적 증거는 VLM의 과학적 추론 능력 향상이 시급함을 강조한다. 우리의 CSVQA는 https://huggingface.co/datasets/Skywork/CSVQA에서 공개되었다.
English
Vision-Language Models (VLMs) have demonstrated remarkable progress in multimodal understanding, yet their capabilities for scientific reasoning remains inadequately assessed. Current multimodal benchmarks predominantly evaluate generic image comprehension or text-driven reasoning, lacking authentic scientific contexts that require domain-specific knowledge integration with visual evidence analysis. To fill this gap, we present CSVQA, a diagnostic multimodal benchmark specifically designed for evaluating scientific reasoning through domain-grounded visual question answering.Our benchmark features 1,378 carefully constructed question-answer pairs spanning diverse STEM disciplines, each demanding domain knowledge, integration of visual evidence, and higher-order reasoning. Compared to prior multimodal benchmarks, CSVQA places greater emphasis on real-world scientific content and complex reasoning.We additionally propose a rigorous evaluation protocol to systematically assess whether model predictions are substantiated by valid intermediate reasoning steps based on curated explanations. Our comprehensive evaluation of 15 VLMs on this benchmark reveals notable performance disparities, as even the top-ranked proprietary model attains only 49.6\% accuracy.This empirical evidence underscores the pressing need for advancing scientific reasoning capabilities in VLMs. Our CSVQA is released at https://huggingface.co/datasets/Skywork/CSVQA.
PDF474June 4, 2025