ChatPaper.aiChatPaper

SciAgentGym: Benchmarking von mehrstufiger wissenschaftlicher Werkzeugnutzung in LLM-Agenten

SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

February 13, 2026
papers.authors: Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI

papers.abstract

Wissenschaftliches Denken erfordert inhärent die Integration anspruchsvoller Werkzeugsätze, um domänenspezifisches Wissen zu navigieren. Dennoch übersehen aktuelle Benchmarks weitgehend die Fähigkeit von Agenten, Werkzeuge für solche rigorosen Arbeitsabläufe zu orchestrieren. Um diese Lücke zu schließen, stellen wir SciAgentGym vor, eine skalierbare interaktive Umgebung mit 1.780 domänenspezifischen Werkzeugen aus vier Naturwissenschaftsdisziplinen, unterstützt durch eine robuste Ausführungsinfrastruktur. Ergänzend dazu präsentieren wir SciAgentBench, eine gestaffelte Evaluierungssuite, die darauf ausgelegt ist, agentenbasierte Fähigkeiten von elementaren Aktionen bis hin zu langfristigen Arbeitsabläufen zu belastungstesten. Unsere Auswertung identifiziert einen kritischen Engpass: State-of-the-Art-Modelle haben Schwierigkeiten mit komplexer wissenschaftlicher Werkzeugnutzung. Selbst für ein führendes Modell wie GPT-5 sinken die Erfolgsquoten von 60,6 % auf 30,9 %, sobald die Interaktionshorizonte länger werden, primär aufgrund von Fehlern bei der Ausführung mehrstufiger Arbeitsabläufe. Um dies zu adressieren, schlagen wir SciForge vor, eine Methode zur Datensynthese, die den Werkzeugaktionsraum als Abhängigkeitsgraph modelliert, um logikbewusste Trainingsverläufe zu generieren. Durch Feinabstimmung auf diesen Verläufen übertrifft unser SciAgent-8B das deutlich größere Qwen3-VL-235B-Instruct und zeigt gleichzeitig einen positiven domänenübergreifenden Transfer wissenschaftlicher Werkzeugnutzungsfähigkeiten. Diese Ergebnisse unterstreichen das vielversprechende Potenzial autonomer wissenschaftlicher Agenten der nächsten Generation.
English
Scientific reasoning inherently demands integrating sophisticated toolkits to navigate domain-specific knowledge. Yet, current benchmarks largely overlook agents' ability to orchestrate tools for such rigorous workflows. To bridge this gap, we introduce SciAgentGym, a scalable interactive environment featuring 1,780 domain-specific tools across four natural science disciplines, supported by a robust execution infrastructure. Complementing this, we present SciAgentBench, a tiered evaluation suite designed to stress-test agentic capabilities from elementary actions to long-horizon workflows. Our evaluation identifies a critical bottleneck: state-of-the-art models struggle with complex scientific tool-use. Even for a leading model like GPT-5, success rates drop sharply from 60.6% to 30.9% as interaction horizons extend, primarily due to failures in multi-step workflow execution. To address this, we propose SciForge, a data synthesis method that models the tool action space as a dependency graph to generate logic-aware training trajectories. By fine-tuning on these trajectories, our SciAgent-8B outperforms the significantly larger Qwen3-VL-235B-Instruct while exhibiting positive cross-domain transfer of scientific tool-use capabilities. These results underscore the promising potential of next-generation autonomous scientific agents.
PDF42February 17, 2026