SciAgentGym: LLM 에이전트의 다단계 과학 도구 활용 능력 벤치마킹
SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
February 13, 2026
저자: Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI
초록
과학적 추론은 본질적으로 영역 특화 지식을 활용하기 위해 정교한 도구 키트를 통합할 것을 요구합니다. 그러나 현재 벤치마크는 이러한 엄격한 작업 흐름을 위해 에이전트가 도구를 조율하는 능력을 크게 간과하고 있습니다. 이러한 격차를 해소하기 위해 우리는 4개의 자연과학 분야에 걸쳐 1,780개의 영역 특화 도구를 포함하고 견고한 실행 인프라를 지원하는 확장 가능한 상호작용 환경인 SciAgentGym을 소개합니다. 이를 보완하기 위해 기본 동작부터 장기간 작업 흐름에 이르기까지 에이전트 능력을 집중적으로 평가하기 위해 설계된 단계별 평가 도구인 SciAgentBench을 제시합니다. 우리의 평가는 중요한 병목 현상을 확인했습니다: 최첨단 모델들은 복잡한 과학적 도구 사용에 어려움을 겪습니다. GPT-5와 같은 선도적인 모델의 경우에도 상호작용 범위가 확장됨에 따라 성공률이 60.6%에서 30.9%로 급격히 하락하는데, 이는 주로 다단계 작업 흐름 실행의 실패 때문입니다. 이를 해결하기 위해 우리는 도구 행동 공간을 의존성 그래프로 모델링하여 논리 인식 훈련 궤적을 생성하는 데이터 합성 방법인 SciForge를 제안합니다. 이러한 궤적에 대해 미세 조정을 수행함으로써, 우리의 SciAgent-8B는 훨씬 더 큰 규모의 Qwen3-VL-235B-Instruct를 능가하면서 과학적 도구 사용 능력의 긍정적인 영역 간 전이를 보여줍니다. 이러한 결과는 차세대 자율 과학 에이전트의 유망한 잠재력을 강조합니다.
English
Scientific reasoning inherently demands integrating sophisticated toolkits to navigate domain-specific knowledge. Yet, current benchmarks largely overlook agents' ability to orchestrate tools for such rigorous workflows. To bridge this gap, we introduce SciAgentGym, a scalable interactive environment featuring 1,780 domain-specific tools across four natural science disciplines, supported by a robust execution infrastructure. Complementing this, we present SciAgentBench, a tiered evaluation suite designed to stress-test agentic capabilities from elementary actions to long-horizon workflows. Our evaluation identifies a critical bottleneck: state-of-the-art models struggle with complex scientific tool-use. Even for a leading model like GPT-5, success rates drop sharply from 60.6% to 30.9% as interaction horizons extend, primarily due to failures in multi-step workflow execution. To address this, we propose SciForge, a data synthesis method that models the tool action space as a dependency graph to generate logic-aware training trajectories. By fine-tuning on these trajectories, our SciAgent-8B outperforms the significantly larger Qwen3-VL-235B-Instruct while exhibiting positive cross-domain transfer of scientific tool-use capabilities. These results underscore the promising potential of next-generation autonomous scientific agents.