SciEvalKit: Um Kit de Ferramentas de Avaliação de Código Aberto para Inteligência Geral Científica

Resumo

Apresentamos o SciEvalKit, um kit de ferramentas unificado de avaliação comparativa projetado para avaliar modelos de IA para a ciência em uma ampla gama de disciplinas científicas e capacidades de tarefa. Ao contrário das plataformas de avaliação de propósito geral, o SciEvalKit concentra-se nas competências centrais da inteligência científica, incluindo Percepção Multimodal Científica, Raciocínio Multimodal Científico, Compreensão Multimodal Científica, Raciocínio Simbólico Científico, Geração de Código Científico, Geração de Hipóteses Científicas e Compreensão do Conhecimento Científico. Ele suporta seis domínios científicos principais, abrangendo desde física e química até astronomia e ciência dos materiais. O SciEvalKit constrói uma base de parâmetros de referência científicos de nível especialista, curados a partir de conjuntos de dados específicos de domínio do mundo real, garantindo que as tarefas reflitam desafios científicos autênticos. O kit de ferramentas apresenta um pipeline de avaliação flexível e extensível que permite a avaliação em lote entre modelos e conjuntos de dados, suporta a integração personalizada de modelos e conjuntos de dados e fornece resultados transparentes, reproduzíveis e comparáveis. Ao unir a avaliação baseada em capacidades e a diversidade disciplinar, o SciEvalKit oferece uma infraestrutura padronizada, mas personalizável, para avaliar comparativamente a próxima geração de modelos de base científicos e agentes inteligentes. O kit de ferramentas é de código aberto e mantido ativamente para promover o desenvolvimento e o progresso orientados pela comunidade em IA para a Ciência.

English

We introduce SciEvalKit, a unified benchmarking toolkit designed to evaluate AI models for science across a broad range of scientific disciplines and task capabilities. Unlike general-purpose evaluation platforms, SciEvalKit focuses on the core competencies of scientific intelligence, including Scientific Multimodal Perception, Scientific Multimodal Reasoning, Scientific Multimodal Understanding, Scientific Symbolic Reasoning, Scientific Code Generation, Science Hypothesis Generation and Scientific Knowledge Understanding. It supports six major scientific domains, spanning from physics and chemistry to astronomy and materials science. SciEvalKit builds a foundation of expert-grade scientific benchmarks, curated from real-world, domain-specific datasets, ensuring that tasks reflect authentic scientific challenges. The toolkit features a flexible, extensible evaluation pipeline that enables batch evaluation across models and datasets, supports custom model and dataset integration, and provides transparent, reproducible, and comparable results. By bridging capability-based evaluation and disciplinary diversity, SciEvalKit offers a standardized yet customizable infrastructure to benchmark the next generation of scientific foundation models and intelligent agents. The toolkit is open-sourced and actively maintained to foster community-driven development and progress in AI4Science.

SciEvalKit: Um Kit de Ferramentas de Avaliação de Código Aberto para Inteligência Geral Científica

SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence

Resumo

Support