SciEvalKit: 과학적 일반 지능 평가를 위한 오픈소스 툴킷
SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence
December 26, 2025
저자: Yiheng Wang, Yixin Chen, Shuo Li, Yifan Zhou, Bo Liu, Hengjian Gao, Jiakang Yuan, Jia Bu, Wanghan Xu, Yuhao Zhou, Xiangyu Zhao, Zhiwang Zhou, Fengxiang Wang, Haodong Duan, Songyang Zhang, Jun Yao, Han Deng, Yizhou Wang, Jiabei Xiao, Jiaqi Liu, Encheng Su, Yujie Liu, Weida Wang, Junchi Yao, Shenghe Zheng, Haoran Sun, Runmin Ma, Xiangchao Yan, Bo Zhang, Dongzhan Zhou, Shufei Zhang, Peng Ye, Xiaosong Wang, Shixiang Tang, Wenlong Zhang, Lei Bai
cs.AI
초록
SciEvalKit은 다양한 과학 분야와 과제 역량에 걸쳐 AI 모델의 과학 능력을 평가하기 위해 설계된 통합 벤치마킹 툴킷을 소개합니다. 일반 목적의 평가 플랫폼과 달리, SciEvalKit은 과학적 다중모드 인지, 과학적 다중모드 추론, 과학적 다중모드 이해, 과학적 기호 추론, 과학적 코드 생성, 과학 가설 생성 및 과학적 지식 이해를 포함한 과학 지능의 핵심 역량에 중점을 둡니다. 이 툴킷은 물리학, 화학부터 천문학, 재료과학에 이르기까지 6대 주요 과학 영역을 지원합니다. SciEvalKit은 실제 현실의 영역 특화 데이터셋에서 엄선하여 과제가 진정한 과학적 도전 과제를 반영하도록 보장하는 전문가 수준의 과학 벤치마크 기반을 구축합니다. 본 툴킷은 유연하고 확장 가능한 평가 파이프라인을 특징으로 하며, 모델 및 데이터셋 간 일괄 평가를 가능하게 하고, 사용자 정의 모델 및 데이터셋 통합을 지원하며, 투명하고 재현 가능하며 비교 가능한 결과를 제공합니다. 역량 기반 평가와 학제적 다양성을 연결함으로써 SciEvalKit은 차세대 과학 기초 모델 및 지능형 에이전트를 벤치마크하기 위한 표준화되었으면서도 사용자 정의가 가능한 인프라를 제공합니다. 이 툴킷은 AI4Science 분야의 커뮤니티 주도 개발과 진전을 촉진하기 위해 오픈소스로 제공되며 활발히 유지보수됩니다.
English
We introduce SciEvalKit, a unified benchmarking toolkit designed to evaluate AI models for science across a broad range of scientific disciplines and task capabilities. Unlike general-purpose evaluation platforms, SciEvalKit focuses on the core competencies of scientific intelligence, including Scientific Multimodal Perception, Scientific Multimodal Reasoning, Scientific Multimodal Understanding, Scientific Symbolic Reasoning, Scientific Code Generation, Science Hypothesis Generation and Scientific Knowledge Understanding. It supports six major scientific domains, spanning from physics and chemistry to astronomy and materials science. SciEvalKit builds a foundation of expert-grade scientific benchmarks, curated from real-world, domain-specific datasets, ensuring that tasks reflect authentic scientific challenges. The toolkit features a flexible, extensible evaluation pipeline that enables batch evaluation across models and datasets, supports custom model and dataset integration, and provides transparent, reproducible, and comparable results. By bridging capability-based evaluation and disciplinary diversity, SciEvalKit offers a standardized yet customizable infrastructure to benchmark the next generation of scientific foundation models and intelligent agents. The toolkit is open-sourced and actively maintained to foster community-driven development and progress in AI4Science.