SciAgentGym: Avaliação do Uso de Ferramentas Científicas em Múltiplas Etapas por Agentes de LLM

Resumo

O raciocínio científico exige inerentemente a integração de conjuntos de ferramentas sofisticados para navegar em conhecimentos específicos de domínio. No entanto, os benchmarks atuais ignoram em grande parte a capacidade dos agentes de orquestrar ferramentas para fluxos de trabalho tão rigorosos. Para preencher esta lacuna, apresentamos o SciAgentGym, um ambiente interativo e escalável que apresenta 1.780 ferramentas específicas de domínio em quatro disciplinas das ciências naturais, apoiado por uma infraestrutura de execução robusta. Complementando isto, apresentamos o SciAgentBench, um conjunto de avaliação hierárquico concebido para testar rigorosamente as capacidades dos agentes, desde ações elementares até fluxos de trabalho de longo horizonte. A nossa avaliação identifica um estrangulamento crítico: os modelos state-of-the-art têm dificuldades com a utilização complexa de ferramentas científicas. Mesmo para um modelo líder como o GPT-5, as taxas de sucesso caem drasticamente de 60,6% para 30,9% à medida que os horizontes de interação se estendem, principalmente devido a falhas na execução de fluxos de trabalho multi-etapa. Para resolver isto, propomos o SciForge, um método de síntese de dados que modela o espaço de ação das ferramentas como um grafo de dependências para gerar trajetórias de treino conscientes da lógica. Ao realizar fine-tuning nestas trajetórias, o nosso SciAgent-8B supera o significativamente maior Qwen3-VL-235B-Instruct, exibindo ao mesmo tempo uma transferência positiva e transversal a domínios das capacidades de utilização de ferramentas científicas. Estes resultados sublinham o potencial promissor dos agentes científicos autónomos de próxima geração.

English

Scientific reasoning inherently demands integrating sophisticated toolkits to navigate domain-specific knowledge. Yet, current benchmarks largely overlook agents' ability to orchestrate tools for such rigorous workflows. To bridge this gap, we introduce SciAgentGym, a scalable interactive environment featuring 1,780 domain-specific tools across four natural science disciplines, supported by a robust execution infrastructure. Complementing this, we present SciAgentBench, a tiered evaluation suite designed to stress-test agentic capabilities from elementary actions to long-horizon workflows. Our evaluation identifies a critical bottleneck: state-of-the-art models struggle with complex scientific tool-use. Even for a leading model like GPT-5, success rates drop sharply from 60.6% to 30.9% as interaction horizons extend, primarily due to failures in multi-step workflow execution. To address this, we propose SciForge, a data synthesis method that models the tool action space as a dependency graph to generate logic-aware training trajectories. By fine-tuning on these trajectories, our SciAgent-8B outperforms the significantly larger Qwen3-VL-235B-Instruct while exhibiting positive cross-domain transfer of scientific tool-use capabilities. These results underscore the promising potential of next-generation autonomous scientific agents.

SciAgentGym: Avaliação do Uso de Ferramentas Científicas em Múltiplas Etapas por Agentes de LLM

SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

Resumo

Support