SciAgentGym : Évaluation de l'utilisation d'outils scientifiques en plusieurs étapes par des agents de LLM
SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
February 13, 2026
papers.authors: Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI
papers.abstract
Le raisonnement scientifique exige intrinsèquement l'intégration de boîtes à outils sophistiquées pour naviguer dans les connaissances spécifiques à un domaine. Pourtant, les benchmarks actuels négligent largement la capacité des agents à orchestrer des outils pour de tels workflows rigoureux. Pour combler cette lacune, nous présentons SciAgentGym, un environnement interactif et évolutif comprenant 1 780 outils spécialisés répartis sur quatre disciplines des sciences naturelles, soutenu par une infrastructure d'exécution robuste. En complément, nous présentons SciAgentBench, une suite d'évaluation à plusieurs niveaux conçue pour tester en profondeur les capacités des agents, des actions élémentaires aux workflows à long terme. Notre évaluation identifie un goulot d'étranglement critique : les modèles de pointe éprouvent des difficultés avec l'utilisation complexe d'outils scientifiques. Même pour un modèle leader comme GPT-5, les taux de réussite chutent brutalement de 60,6 % à 30,9 % à mesure que les horizons d'interaction s'allongent, principalement en raison d'échecs dans l'exécution de workflows multi-étapes. Pour y remédier, nous proposons SciForge, une méthode de synthèse de données qui modélise l'espace d'action des outils sous forme de graphe de dépendances pour générer des trajectoires d'entraînement logiques. En affinant le modèle sur ces trajectoires, notre SciAgent-8B surpasse le modèle Qwen3-VL-235B-Instruct pourtant bien plus grand, tout en démontrant un transfert positif interdomaine des capacités d'utilisation d'outils scientifiques. Ces résultats soulignent le potentiel prometteur des prochaines générations d'agents scientifiques autonomes.
English
Scientific reasoning inherently demands integrating sophisticated toolkits to navigate domain-specific knowledge. Yet, current benchmarks largely overlook agents' ability to orchestrate tools for such rigorous workflows. To bridge this gap, we introduce SciAgentGym, a scalable interactive environment featuring 1,780 domain-specific tools across four natural science disciplines, supported by a robust execution infrastructure. Complementing this, we present SciAgentBench, a tiered evaluation suite designed to stress-test agentic capabilities from elementary actions to long-horizon workflows. Our evaluation identifies a critical bottleneck: state-of-the-art models struggle with complex scientific tool-use. Even for a leading model like GPT-5, success rates drop sharply from 60.6% to 30.9% as interaction horizons extend, primarily due to failures in multi-step workflow execution. To address this, we propose SciForge, a data synthesis method that models the tool action space as a dependency graph to generate logic-aware training trajectories. By fine-tuning on these trajectories, our SciAgent-8B outperforms the significantly larger Qwen3-VL-235B-Instruct while exhibiting positive cross-domain transfer of scientific tool-use capabilities. These results underscore the promising potential of next-generation autonomous scientific agents.