SciEvalKit : Une Boîte à Outils d'Évaluation Open-Source pour l'Intelligence Générale Scientifique
SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence
December 26, 2025
papers.authors: Yiheng Wang, Yixin Chen, Shuo Li, Yifan Zhou, Bo Liu, Hengjian Gao, Jiakang Yuan, Jia Bu, Wanghan Xu, Yuhao Zhou, Xiangyu Zhao, Zhiwang Zhou, Fengxiang Wang, Haodong Duan, Songyang Zhang, Jun Yao, Han Deng, Yizhou Wang, Jiabei Xiao, Jiaqi Liu, Encheng Su, Yujie Liu, Weida Wang, Junchi Yao, Shenghe Zheng, Haoran Sun, Runmin Ma, Xiangchao Yan, Bo Zhang, Dongzhan Zhou, Shufei Zhang, Peng Ye, Xiaosong Wang, Shixiang Tang, Wenlong Zhang, Lei Bai
cs.AI
papers.abstract
Nous présentons SciEvalKit, une boîte à outils unifiée d'évaluation conçue pour tester les modèles d'IA dédiés à la science sur un vaste éventail de disciplines scientifiques et de capacités de tâches. Contrairement aux plateformes d'évaluation généralistes, SciEvalKit se concentre sur les compétences fondamentales de l'intelligence scientifique, incluant la Perception Multimodale Scientifique, le Raisonnement Multimodal Scientifique, la Compréhension Multimodale Scientifique, le Raisonnement Symbolique Scientifique, la Génération de Code Scientifique, la Génération d'Hypothèses Scientifiques et la Compréhension des Connaissances Scientifiques. Elle prend en charge six domaines scientifiques majeurs, allant de la physique et la chimie à l'astronomie et la science des matériaux. SciEvalKit constitue un socle de référentiels d'évaluation de niveau expert, élaborés à partir de jeux de données réels et spécifiques à chaque domaine, garantissant que les tâches reflètent des défis scientifiques authentiques. La boîte à outils intègre un pipeline d'évaluation flexible et extensible qui permet une évaluation par lots sur différents modèles et jeux de données, prend en charge l'intégration de modèles et de jeux de données personnalisés, et fournit des résultats transparents, reproductibles et comparables. En reliant l'évaluation par capacités et la diversité disciplinaire, SciEvalKit offre une infrastructure standardisée mais personnalisable pour évaluer la prochaine génération de modèles fondationnels scientifiques et d'agents intelligents. La boîte à outils est open source et activement maintenue pour favoriser un développement communautaire et les progrès dans le domaine de l'IA pour la Science.
English
We introduce SciEvalKit, a unified benchmarking toolkit designed to evaluate AI models for science across a broad range of scientific disciplines and task capabilities. Unlike general-purpose evaluation platforms, SciEvalKit focuses on the core competencies of scientific intelligence, including Scientific Multimodal Perception, Scientific Multimodal Reasoning, Scientific Multimodal Understanding, Scientific Symbolic Reasoning, Scientific Code Generation, Science Hypothesis Generation and Scientific Knowledge Understanding. It supports six major scientific domains, spanning from physics and chemistry to astronomy and materials science. SciEvalKit builds a foundation of expert-grade scientific benchmarks, curated from real-world, domain-specific datasets, ensuring that tasks reflect authentic scientific challenges. The toolkit features a flexible, extensible evaluation pipeline that enables batch evaluation across models and datasets, supports custom model and dataset integration, and provides transparent, reproducible, and comparable results. By bridging capability-based evaluation and disciplinary diversity, SciEvalKit offers a standardized yet customizable infrastructure to benchmark the next generation of scientific foundation models and intelligent agents. The toolkit is open-sourced and actively maintained to foster community-driven development and progress in AI4Science.