SciEvalKit: Un Kit de Evaluación de Código Abierto para la Inteligencia General Científica
SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence
December 26, 2025
Autores: Yiheng Wang, Yixin Chen, Shuo Li, Yifan Zhou, Bo Liu, Hengjian Gao, Jiakang Yuan, Jia Bu, Wanghan Xu, Yuhao Zhou, Xiangyu Zhao, Zhiwang Zhou, Fengxiang Wang, Haodong Duan, Songyang Zhang, Jun Yao, Han Deng, Yizhou Wang, Jiabei Xiao, Jiaqi Liu, Encheng Su, Yujie Liu, Weida Wang, Junchi Yao, Shenghe Zheng, Haoran Sun, Runmin Ma, Xiangchao Yan, Bo Zhang, Dongzhan Zhou, Shufei Zhang, Peng Ye, Xiaosong Wang, Shixiang Tang, Wenlong Zhang, Lei Bai
cs.AI
Resumen
Presentamos SciEvalKit, un kit de herramientas unificado para evaluación comparativa diseñado para evaluar modelos de IA para la ciencia en una amplia gama de disciplinas científicas y capacidades de tareas. A diferencia de las plataformas de evaluación de propósito general, SciEvalKit se centra en las competencias fundamentales de la inteligencia científica, que incluyen Percepción Multimodal Científica, Razonamiento Multimodal Científico, Comprensión Multimodal Científica, Razonamiento Simbólico Científico, Generación de Código Científico, Generación de Hipótesis Científicas y Comprensión del Conocimiento Científico. Soporta seis dominios científicos principales, que abarcan desde la física y la química hasta la astronomía y la ciencia de materiales. SciEvalKit construye una base de puntos de referencia científicos de nivel experto, seleccionados a partir de conjuntos de datos específicos del mundo real y del dominio, asegurando que las tareas reflejen desafíos científicos auténticos. El kit de herramientas presenta una canalización de evaluación flexible y extensible que permite la evaluación por lotes en modelos y conjuntos de datos, admite la integración personalizada de modelos y conjuntos de datos, y proporciona resultados transparentes, reproducibles y comparables. Al tender un puente entre la evaluación basada en capacidades y la diversidad disciplinaria, SciEvalKit ofrece una infraestructura estandarizada pero personalizable para evaluar comparativamente la próxima generación de modelos fundacionales científicos y agentes inteligentes. El kit de herramientas es de código abierto y se mantiene activamente para fomentar el desarrollo impulsado por la comunidad y el progreso en IA para la Ciencia.
English
We introduce SciEvalKit, a unified benchmarking toolkit designed to evaluate AI models for science across a broad range of scientific disciplines and task capabilities. Unlike general-purpose evaluation platforms, SciEvalKit focuses on the core competencies of scientific intelligence, including Scientific Multimodal Perception, Scientific Multimodal Reasoning, Scientific Multimodal Understanding, Scientific Symbolic Reasoning, Scientific Code Generation, Science Hypothesis Generation and Scientific Knowledge Understanding. It supports six major scientific domains, spanning from physics and chemistry to astronomy and materials science. SciEvalKit builds a foundation of expert-grade scientific benchmarks, curated from real-world, domain-specific datasets, ensuring that tasks reflect authentic scientific challenges. The toolkit features a flexible, extensible evaluation pipeline that enables batch evaluation across models and datasets, supports custom model and dataset integration, and provides transparent, reproducible, and comparable results. By bridging capability-based evaluation and disciplinary diversity, SciEvalKit offers a standardized yet customizable infrastructure to benchmark the next generation of scientific foundation models and intelligent agents. The toolkit is open-sourced and actively maintained to foster community-driven development and progress in AI4Science.