SciAgentGym: Evaluación del Uso de Herramientas Científicas Multi-Etapa en Agentes de LLM
SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
February 13, 2026
Autores: Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI
Resumen
El razonamiento científico exige inherentemente la integración de herramientas sofisticadas para navegar el conocimiento específico de cada dominio. Sin embargo, los puntos de referencia actuales pasan por alto en gran medida la capacidad de los agentes para orquestar herramientas en flujos de trabajo tan rigurosos. Para cerrar esta brecha, presentamos SciAgentGym, un entorno interactivo y escalable que incluye 1.780 herramientas específicas de dominio en cuatro disciplinas de ciencias naturales, respaldado por una infraestructura de ejecución robusta. Complementando esto, presentamos SciAgentBench, una suite de evaluación escalonada diseñada para someter a prueba las capacidades agenticas, desde acciones elementales hasta flujos de trabajo de largo horizonte. Nuestra evaluación identifica un cuello de botella crítico: los modelos de última generación tienen dificultades con el uso complejo de herramientas científicas. Incluso para un modelo líder como GPT-5, las tasas de éxito caen drásticamente del 60,6% al 30,9% a medida que se extienden los horizontes de interacción, principalmente debido a fallos en la ejecución de flujos de trabajo de múltiples pasos. Para abordar este problema, proponemos SciForge, un método de síntesis de datos que modela el espacio de acciones de herramientas como un grafo de dependencias para generar trayectorias de entrenamiento lógicamente conscientes. Al ajustar estos modelos en dichas trayectorias, nuestro SciAgent-8B supera al significativamente más grande Qwen3-VL-235B-Instruct, mientras exhibe una transferencia positiva cruzada de dominios en las capacidades de uso de herramientas científicas. Estos resultados subrayan el prometedor potencial de la próxima generación de agentes científicos autónomos.
English
Scientific reasoning inherently demands integrating sophisticated toolkits to navigate domain-specific knowledge. Yet, current benchmarks largely overlook agents' ability to orchestrate tools for such rigorous workflows. To bridge this gap, we introduce SciAgentGym, a scalable interactive environment featuring 1,780 domain-specific tools across four natural science disciplines, supported by a robust execution infrastructure. Complementing this, we present SciAgentBench, a tiered evaluation suite designed to stress-test agentic capabilities from elementary actions to long-horizon workflows. Our evaluation identifies a critical bottleneck: state-of-the-art models struggle with complex scientific tool-use. Even for a leading model like GPT-5, success rates drop sharply from 60.6% to 30.9% as interaction horizons extend, primarily due to failures in multi-step workflow execution. To address this, we propose SciForge, a data synthesis method that models the tool action space as a dependency graph to generate logic-aware training trajectories. By fine-tuning on these trajectories, our SciAgent-8B outperforms the significantly larger Qwen3-VL-235B-Instruct while exhibiting positive cross-domain transfer of scientific tool-use capabilities. These results underscore the promising potential of next-generation autonomous scientific agents.