ChatPaper.aiChatPaper

SciAgentGym: Тестирование многошагового использования научных инструментов в агентах на основе больших языковых моделей

SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

February 13, 2026
Авторы: Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI

Аннотация

Научное мышление по своей сути требует интеграции сложных инструментариев для навигации в предметно-ориентированных знаниях. Однако современные бенчмарки в значительной степени игнорируют способность агентов координировать инструменты для таких строгих рабочих процессов. Чтобы заполнить этот пробел, мы представляем SciAgentGym — масштабируемую интерактивную среду, включающую 1780 предметно-ориентированных инструментов в четырех дисциплинах естественных наук, поддерживаемую надежной инфраструктурой исполнения. В дополнение к этому мы представляем SciAgentBench, многоуровневый набор для оценки, предназначенный для стресс-тестирования агентских возможностей — от элементарных действий до долгосрочных рабочих процессов. Наша оценка выявляет ключевое узкое место: современные модели испытывают трудности со сложным научным использованием инструментов. Даже для передовой модели, такой как GPT-5, процент успешных выполнений резко падает с 60,6% до 30,9% по мере увеличения горизонта взаимодействия, в основном из-за сбоев в выполнении многошаговых рабочих процессов. Для решения этой проблемы мы предлагаем SciForge — метод синтеза данных, который моделирует пространство действий с инструментами в виде графа зависимостей для генерации логически осознанных траекторий обучения. После дообучения на этих траекториях наша модель SciAgent-8B превосходит значительно более крупную Qwen3-VL-235B-Instruct, демонстрируя позитивный кросс-доменный перенос способностей к научному использованию инструментов. Эти результаты подчеркивают многообещающий потенциал агентов следующего поколения для автономной научной деятельности.
English
Scientific reasoning inherently demands integrating sophisticated toolkits to navigate domain-specific knowledge. Yet, current benchmarks largely overlook agents' ability to orchestrate tools for such rigorous workflows. To bridge this gap, we introduce SciAgentGym, a scalable interactive environment featuring 1,780 domain-specific tools across four natural science disciplines, supported by a robust execution infrastructure. Complementing this, we present SciAgentBench, a tiered evaluation suite designed to stress-test agentic capabilities from elementary actions to long-horizon workflows. Our evaluation identifies a critical bottleneck: state-of-the-art models struggle with complex scientific tool-use. Even for a leading model like GPT-5, success rates drop sharply from 60.6% to 30.9% as interaction horizons extend, primarily due to failures in multi-step workflow execution. To address this, we propose SciForge, a data synthesis method that models the tool action space as a dependency graph to generate logic-aware training trajectories. By fine-tuning on these trajectories, our SciAgent-8B outperforms the significantly larger Qwen3-VL-235B-Instruct while exhibiting positive cross-domain transfer of scientific tool-use capabilities. These results underscore the promising potential of next-generation autonomous scientific agents.
PDF42February 17, 2026