SciEvalKit: 科学的一般知能評価のためのオープンソースツールキット
SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence
December 26, 2025
著者: Yiheng Wang, Yixin Chen, Shuo Li, Yifan Zhou, Bo Liu, Hengjian Gao, Jiakang Yuan, Jia Bu, Wanghan Xu, Yuhao Zhou, Xiangyu Zhao, Zhiwang Zhou, Fengxiang Wang, Haodong Duan, Songyang Zhang, Jun Yao, Han Deng, Yizhou Wang, Jiabei Xiao, Jiaqi Liu, Encheng Su, Yujie Liu, Weida Wang, Junchi Yao, Shenghe Zheng, Haoran Sun, Runmin Ma, Xiangchao Yan, Bo Zhang, Dongzhan Zhou, Shufei Zhang, Peng Ye, Xiaosong Wang, Shixiang Tang, Wenlong Zhang, Lei Bai
cs.AI
要旨
本論文では、科学分野におけるAIモデルを多様な科学領域とタスク能力にわたって評価するための統合ベンチマーキングツールキット「SciEvalKit」を提案する。汎用評価プラットフォームとは異なり、SciEvalKitは科学的知能の核心能力に焦点を当てている。具体的には、科学的多モーダル知覚、科学的多モーダル推論、科学的多モーダル理解、科学的記号推論、科学コード生成、科学仮説生成、科学的知識理解を対象とする。物理学や化学から天文学、材料科学に至る6つの主要科学領域をカバーし、実世界の領域特化型データセットから厳選した専門家レベルの科学ベンチマークを構築することで、タスクが真に科学的な課題を反映することを保証する。
本ツールキットは柔軟で拡張可能な評価パイプラインを特徴とし、モデルやデータセットにわたる一括評価を可能にするとともに、カスタムモデルやデータセットの統合をサポートし、透明性・再現性・比較可能性を備えた結果を提供する。能力ベースの評価と学際的多様性を橋渡しすることで、SciEvalKitは次世代の科学基盤モデルと知的エージェントを評価するための標準化されながらもカスタマイズ可能な基盤を提供する。本ツールキットはオープンソースとして公開され、AI4Scienceにおけるコミュニティ主導の開発と進歩を促進するために積極的に維持されている。
English
We introduce SciEvalKit, a unified benchmarking toolkit designed to evaluate AI models for science across a broad range of scientific disciplines and task capabilities. Unlike general-purpose evaluation platforms, SciEvalKit focuses on the core competencies of scientific intelligence, including Scientific Multimodal Perception, Scientific Multimodal Reasoning, Scientific Multimodal Understanding, Scientific Symbolic Reasoning, Scientific Code Generation, Science Hypothesis Generation and Scientific Knowledge Understanding. It supports six major scientific domains, spanning from physics and chemistry to astronomy and materials science. SciEvalKit builds a foundation of expert-grade scientific benchmarks, curated from real-world, domain-specific datasets, ensuring that tasks reflect authentic scientific challenges. The toolkit features a flexible, extensible evaluation pipeline that enables batch evaluation across models and datasets, supports custom model and dataset integration, and provides transparent, reproducible, and comparable results. By bridging capability-based evaluation and disciplinary diversity, SciEvalKit offers a standardized yet customizable infrastructure to benchmark the next generation of scientific foundation models and intelligent agents. The toolkit is open-sourced and actively maintained to foster community-driven development and progress in AI4Science.