SciAgentGym: Avaliação do Uso de Ferramentas Científicas em Múltiplas Etapas por Agentes de LLM
SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
February 13, 2026
Autores: Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI
Resumo
O raciocínio científico exige inerentemente a integração de conjuntos de ferramentas sofisticados para navegar em conhecimentos específicos de domínio. No entanto, os benchmarks atuais ignoram em grande parte a capacidade dos agentes de orquestrar ferramentas para fluxos de trabalho tão rigorosos. Para preencher esta lacuna, apresentamos o SciAgentGym, um ambiente interativo e escalável que apresenta 1.780 ferramentas específicas de domínio em quatro disciplinas das ciências naturais, apoiado por uma infraestrutura de execução robusta. Complementando isto, apresentamos o SciAgentBench, um conjunto de avaliação hierárquico concebido para testar rigorosamente as capacidades dos agentes, desde ações elementares até fluxos de trabalho de longo horizonte. A nossa avaliação identifica um estrangulamento crítico: os modelos state-of-the-art têm dificuldades com a utilização complexa de ferramentas científicas. Mesmo para um modelo líder como o GPT-5, as taxas de sucesso caem drasticamente de 60,6% para 30,9% à medida que os horizontes de interação se estendem, principalmente devido a falhas na execução de fluxos de trabalho multi-etapa. Para resolver isto, propomos o SciForge, um método de síntese de dados que modela o espaço de ação das ferramentas como um grafo de dependências para gerar trajetórias de treino conscientes da lógica. Ao realizar fine-tuning nestas trajetórias, o nosso SciAgent-8B supera o significativamente maior Qwen3-VL-235B-Instruct, exibindo ao mesmo tempo uma transferência positiva e transversal a domínios das capacidades de utilização de ferramentas científicas. Estes resultados sublinham o potencial promissor dos agentes científicos autónomos de próxima geração.
English
Scientific reasoning inherently demands integrating sophisticated toolkits to navigate domain-specific knowledge. Yet, current benchmarks largely overlook agents' ability to orchestrate tools for such rigorous workflows. To bridge this gap, we introduce SciAgentGym, a scalable interactive environment featuring 1,780 domain-specific tools across four natural science disciplines, supported by a robust execution infrastructure. Complementing this, we present SciAgentBench, a tiered evaluation suite designed to stress-test agentic capabilities from elementary actions to long-horizon workflows. Our evaluation identifies a critical bottleneck: state-of-the-art models struggle with complex scientific tool-use. Even for a leading model like GPT-5, success rates drop sharply from 60.6% to 30.9% as interaction horizons extend, primarily due to failures in multi-step workflow execution. To address this, we propose SciForge, a data synthesis method that models the tool action space as a dependency graph to generate logic-aware training trajectories. By fine-tuning on these trajectories, our SciAgent-8B outperforms the significantly larger Qwen3-VL-235B-Instruct while exhibiting positive cross-domain transfer of scientific tool-use capabilities. These results underscore the promising potential of next-generation autonomous scientific agents.