SciAgentGym: Benchmarking dell'Uso di Strumenti Scientifici Multi-Step negli Agenti LLM

Abstract

Il ragionamento scientifico richiede intrinsecamente l'integrazione di toolkit sofisticati per navigare le conoscenze specifiche di dominio. Tuttavia, gli attuali benchmark trascurano in larga misura la capacità degli agenti di orchestrare strumenti per flussi di lavoro così rigorosi. Per colmare questa lacuna, introduciamo SciAgentGym, un ambiente interattivo e scalabile che offre 1.780 strumenti specifici di dominio in quattro discipline delle scienze naturali, supportato da una solida infrastruttura di esecuzione. A complemento, presentiamo SciAgentBench, una suite di valutazione a livelli progettata per testare a fondo le capacità agentiche, dalle azioni elementari ai flussi di lavoro a lungo termine. La nostra valutazione identifica un collo di bottiglia critico: i modelli all'avanguardia faticano nell'utilizzo complesso di strumenti scientifici. Anche per un modello leader come GPT-5, i tassi di successo crollano dal 60,6% al 30,9% con l'estendersi degli orizzonti interattivi, principalmente a causa di fallimenti nell'esecuzione di flussi di lavoro multi-step. Per affrontare questo problema, proponiamo SciForge, un metodo di sintesi dei dati che modella lo spazio delle azioni strumentali come un grafo delle dipendenze per generare traiettorie di training logicamente consapevoli. Addestrando tramite fine-tuning su queste traiettorie, il nostro SciAgent-8B supera il significativamente più grande Qwen3-VL-235B-Instruct, dimostrando al contempo un positivo trasferimento cross-dominio delle capacità di utilizzo di strumenti scientifici. Questi risultati sottolineano il potenziale promettente della prossima generazione di agenti scientifici autonomi.

English

Scientific reasoning inherently demands integrating sophisticated toolkits to navigate domain-specific knowledge. Yet, current benchmarks largely overlook agents' ability to orchestrate tools for such rigorous workflows. To bridge this gap, we introduce SciAgentGym, a scalable interactive environment featuring 1,780 domain-specific tools across four natural science disciplines, supported by a robust execution infrastructure. Complementing this, we present SciAgentBench, a tiered evaluation suite designed to stress-test agentic capabilities from elementary actions to long-horizon workflows. Our evaluation identifies a critical bottleneck: state-of-the-art models struggle with complex scientific tool-use. Even for a leading model like GPT-5, success rates drop sharply from 60.6% to 30.9% as interaction horizons extend, primarily due to failures in multi-step workflow execution. To address this, we propose SciForge, a data synthesis method that models the tool action space as a dependency graph to generate logic-aware training trajectories. By fine-tuning on these trajectories, our SciAgent-8B outperforms the significantly larger Qwen3-VL-235B-Instruct while exhibiting positive cross-domain transfer of scientific tool-use capabilities. These results underscore the promising potential of next-generation autonomous scientific agents.

SciAgentGym: Benchmarking dell'Uso di Strumenti Scientifici Multi-Step negli Agenti LLM

SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

Abstract

Support