SciEvalKit: Ein Open-Source-Bewertungstoolkit für wissenschaftliche Allgemeine Intelligenz
SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence
December 26, 2025
papers.authors: Yiheng Wang, Yixin Chen, Shuo Li, Yifan Zhou, Bo Liu, Hengjian Gao, Jiakang Yuan, Jia Bu, Wanghan Xu, Yuhao Zhou, Xiangyu Zhao, Zhiwang Zhou, Fengxiang Wang, Haodong Duan, Songyang Zhang, Jun Yao, Han Deng, Yizhou Wang, Jiabei Xiao, Jiaqi Liu, Encheng Su, Yujie Liu, Weida Wang, Junchi Yao, Shenghe Zheng, Haoran Sun, Runmin Ma, Xiangchao Yan, Bo Zhang, Dongzhan Zhou, Shufei Zhang, Peng Ye, Xiaosong Wang, Shixiang Tang, Wenlong Zhang, Lei Bai
cs.AI
papers.abstract
Wir stellen SciEvalKit vor, ein einheitliches Benchmarking-Toolkit, das entwickelt wurde, um KI-Modelle für die Wissenschaft über ein breites Spektrum wissenschaftlicher Disziplinen und Aufgabenfähigkeiten hinweg zu evaluieren. Im Gegensatz zu allgemeinen Evaluierungsplattformen konzentriert sich SciEvalKit auf die Kernkompetenzen wissenschaftlicher Intelligenz, darunter Wissenschaftliche Multimodale Wahrnehmung, Wissenschaftliches Multimodales Schließen, Wissenschaftliches Multimodales Verständnis, Wissenschaftliches Symbolisches Schließen, Wissenschaftliche Code-Generierung, Wissenschaftliche Hypothesengenerierung und Wissenschaftliches Wissensverständnis. Es unterstützt sechs große wissenschaftliche Domänen, die von Physik und Chemie bis hin zu Astronomie und Materialwissenschaften reichen. SciEvalKit bildet eine Grundlage von Experten-Benchmarks, die aus realen, domänenspezifischen Datensätzen kuratiert werden und sicherstellen, dass die Aufgaben authentische wissenschaftliche Herausforderungen widerspiegeln. Das Toolkit verfügt über eine flexible, erweiterbare Evaluierungspipeline, die Batch-Evaluierungen über Modelle und Datensätze hinweg ermöglicht, die Integration benutzerdefinierter Modelle und Datensätze unterstützt und transparente, reproduzierbare sowie vergleichbare Ergebnisse liefert. Indem es fähigkeitsbasierte Evaluierung und disziplinäre Vielfalt verbindet, bietet SciEvalKit eine standardisierte, doch anpassbare Infrastruktur, um die nächste Generation wissenschaftlicher Foundation-Modelle und intelligenter Agenten zu benchmarken. Das Toolkit ist quelloffen und wird aktiv gepflegt, um community-gesteuerte Entwicklung und Fortschritte in KI für die Wissenschaft zu fördern.
English
We introduce SciEvalKit, a unified benchmarking toolkit designed to evaluate AI models for science across a broad range of scientific disciplines and task capabilities. Unlike general-purpose evaluation platforms, SciEvalKit focuses on the core competencies of scientific intelligence, including Scientific Multimodal Perception, Scientific Multimodal Reasoning, Scientific Multimodal Understanding, Scientific Symbolic Reasoning, Scientific Code Generation, Science Hypothesis Generation and Scientific Knowledge Understanding. It supports six major scientific domains, spanning from physics and chemistry to astronomy and materials science. SciEvalKit builds a foundation of expert-grade scientific benchmarks, curated from real-world, domain-specific datasets, ensuring that tasks reflect authentic scientific challenges. The toolkit features a flexible, extensible evaluation pipeline that enables batch evaluation across models and datasets, supports custom model and dataset integration, and provides transparent, reproducible, and comparable results. By bridging capability-based evaluation and disciplinary diversity, SciEvalKit offers a standardized yet customizable infrastructure to benchmark the next generation of scientific foundation models and intelligent agents. The toolkit is open-sourced and actively maintained to foster community-driven development and progress in AI4Science.