SciEvalKit: Открытый инструментарий для оценки научного общего интеллекта
SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence
December 26, 2025
Авторы: Yiheng Wang, Yixin Chen, Shuo Li, Yifan Zhou, Bo Liu, Hengjian Gao, Jiakang Yuan, Jia Bu, Wanghan Xu, Yuhao Zhou, Xiangyu Zhao, Zhiwang Zhou, Fengxiang Wang, Haodong Duan, Songyang Zhang, Jun Yao, Han Deng, Yizhou Wang, Jiabei Xiao, Jiaqi Liu, Encheng Su, Yujie Liu, Weida Wang, Junchi Yao, Shenghe Zheng, Haoran Sun, Runmin Ma, Xiangchao Yan, Bo Zhang, Dongzhan Zhou, Shufei Zhang, Peng Ye, Xiaosong Wang, Shixiang Tang, Wenlong Zhang, Lei Bai
cs.AI
Аннотация
Мы представляем SciEvalKit — унифицированный инструментарий для бенчмаркинга, предназначенный для оценки научных моделей ИИ в широком спектре дисциплин и типов задач. В отличие от платформ общего назначения, SciEvalKit фокусируется на ключевых компетенциях научного интеллекта, включая научное мультимодальное восприятие, научное мультимодальное рассуждение, научное мультимодальное понимание, научное символьное рассуждение, генерацию научного кода, генерацию научных гипотез и понимание научных знаний. Он поддерживает шесть основных научных областей — от физики и химии до астрономии и материаловедения. SciEvalKit создает основу из экспертных научных бенчмарков, курируемых из реальных предметно-ориентированных наборов данных, что гарантирует соответствие задач подлинным научным вызовам. Инструментарий обладает гибким, расширяемым конвейером оценки, который позволяет проводить пакетную оценку моделей и наборов данных, поддерживает интеграцию пользовательских моделей и данных, а также обеспечивает прозрачные, воспроизводимые и сопоставимые результаты. Объединяя оценку на основе компетенций и междисциплинарное разнообразие, SciEvalKit предлагает стандартизированную, но настраиваемую инфраструктуру для тестирования следующего поколения научных базовых моделей и интеллектуальных агентов. Инструментарий имеет открытый исходный код и активно развивается для поддержки совместной разработки сообществом и прогресса в области ИИ для науки (AI4Science).
English
We introduce SciEvalKit, a unified benchmarking toolkit designed to evaluate AI models for science across a broad range of scientific disciplines and task capabilities. Unlike general-purpose evaluation platforms, SciEvalKit focuses on the core competencies of scientific intelligence, including Scientific Multimodal Perception, Scientific Multimodal Reasoning, Scientific Multimodal Understanding, Scientific Symbolic Reasoning, Scientific Code Generation, Science Hypothesis Generation and Scientific Knowledge Understanding. It supports six major scientific domains, spanning from physics and chemistry to astronomy and materials science. SciEvalKit builds a foundation of expert-grade scientific benchmarks, curated from real-world, domain-specific datasets, ensuring that tasks reflect authentic scientific challenges. The toolkit features a flexible, extensible evaluation pipeline that enables batch evaluation across models and datasets, supports custom model and dataset integration, and provides transparent, reproducible, and comparable results. By bridging capability-based evaluation and disciplinary diversity, SciEvalKit offers a standardized yet customizable infrastructure to benchmark the next generation of scientific foundation models and intelligent agents. The toolkit is open-sourced and actively maintained to foster community-driven development and progress in AI4Science.