ChatPaper.aiChatPaper

SciAgentGym: LLMエージェントにおける多段階科学ツール利用のベンチマーク

SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

February 13, 2026
著者: Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI

要旨

科学的推論には、領域特化的な知識を扱うために高度なツールキットを統合することが本質的に求められる。しかし、現在のベンチマークでは、このような厳密なワークフローを実行するためにツールを調整するエージェントの能力がほとんど評価されていない。この隔たりを埋めるため、我々はSciAgentGymを提案する。これは、堅牢な実行基盤を備え、4つの自然科学分野にわたる1,780の領域特化的なツールを特徴とするスケーラブルな対話型環境である。これを補完するものとして、基本動作から長期的なワークフローに至るまで、エージェント能力を厳密に試験するために設計された段階的評価スイート、SciAgentBenchを提示する。評価結果から、決定的なボトルネックが明らかとなった:最先端のモデルは、複雑な科学的ツール利用に苦戦する。GPT-5のような最先端モデルであっても、相互作用の時間的視野が長くなるにつれ、成功率は60.6%から30.9%へと急激に低下し、その主な原因は多段階ワークフローの実行失敗にある。この問題に対処するため、我々はSciForgeを提案する。これはツールアクション空間を依存関係グラフとしてモデル化し、論理を考慮した訓練軌道を生成するデータ合成手法である。これらの軌道でファインチューニングした我々のSciAgent-8Bは、遥かに大規模なQwen3-VL-235B-Instructを性能で上回り、さらに科学的ツール利用能力の分野横断的な正の転移を示した。これらの結果は、次世代の自律的科学エージェントの有望な可能性を裏付けるものである。
English
Scientific reasoning inherently demands integrating sophisticated toolkits to navigate domain-specific knowledge. Yet, current benchmarks largely overlook agents' ability to orchestrate tools for such rigorous workflows. To bridge this gap, we introduce SciAgentGym, a scalable interactive environment featuring 1,780 domain-specific tools across four natural science disciplines, supported by a robust execution infrastructure. Complementing this, we present SciAgentBench, a tiered evaluation suite designed to stress-test agentic capabilities from elementary actions to long-horizon workflows. Our evaluation identifies a critical bottleneck: state-of-the-art models struggle with complex scientific tool-use. Even for a leading model like GPT-5, success rates drop sharply from 60.6% to 30.9% as interaction horizons extend, primarily due to failures in multi-step workflow execution. To address this, we propose SciForge, a data synthesis method that models the tool action space as a dependency graph to generate logic-aware training trajectories. By fine-tuning on these trajectories, our SciAgent-8B outperforms the significantly larger Qwen3-VL-235B-Instruct while exhibiting positive cross-domain transfer of scientific tool-use capabilities. These results underscore the promising potential of next-generation autonomous scientific agents.
PDF42February 17, 2026