SciAgentGym: Een benchmark voor multi-stap wetenschappelijk toolgebruik in LLM-agenten

Samenvatting

Wetenschappelijk redeneren vereist inherent de integratie van geavanceerde toolkits om domeinspecifieke kennis te navigeren. Toch negeren huidige benchmarks grotendeels het vermogen van agents om tools te orkestreren voor dergelijke rigoureuze workflows. Om deze kloof te overbruggen, introduceren we SciAgentGym, een schaalbare interactieve omgeving met 1.780 domeinspecifieke tools verspreid over vier natuurwetenschappelijke disciplines, ondersteund door een robuuste uitvoeringsinfrastructuur. Hieraan complementair presenteren we SciAgentBench, een gelaagde evaluatiesuite ontworpen om agent-capaciteiten stresstests te laten ondergaan, van elementaire acties tot langetermijnworkflows. Onze evaluatie identificeert een kritieke bottleneck: state-of-the-art modellen worstelen met complex wetenschappelijk toolgebruik. Zelfs voor een toonaangevend model zoals GPT-5 dalen de succespercentages sterk van 60,6% naar 30,9% naarmate de interactiehorizon zich uitstrekt, voornamelijk door falen in de uitvoering van meerstaps-workflows. Om dit aan te pakken, stellen we SciForge voor, een datasynthesemethode die de toolactieruimte modelleert als een afhankelijkheidsgraaf om logisch-bewuste trainingspaden te genereren. Door fine-tuning op deze paden presteert onze SciAgent-8B beter dan de aanzienlijk grotere Qwen3-VL-235B-Instruct en vertoont het positieve cross-domein transfer van wetenschappelijke toolgebruikscapaciteiten. Deze resultaten onderstrepen het veelbelovende potentieel van nieuwe generaties autonome wetenschappelijke agents.

English

Scientific reasoning inherently demands integrating sophisticated toolkits to navigate domain-specific knowledge. Yet, current benchmarks largely overlook agents' ability to orchestrate tools for such rigorous workflows. To bridge this gap, we introduce SciAgentGym, a scalable interactive environment featuring 1,780 domain-specific tools across four natural science disciplines, supported by a robust execution infrastructure. Complementing this, we present SciAgentBench, a tiered evaluation suite designed to stress-test agentic capabilities from elementary actions to long-horizon workflows. Our evaluation identifies a critical bottleneck: state-of-the-art models struggle with complex scientific tool-use. Even for a leading model like GPT-5, success rates drop sharply from 60.6% to 30.9% as interaction horizons extend, primarily due to failures in multi-step workflow execution. To address this, we propose SciForge, a data synthesis method that models the tool action space as a dependency graph to generate logic-aware training trajectories. By fine-tuning on these trajectories, our SciAgent-8B outperforms the significantly larger Qwen3-VL-235B-Instruct while exhibiting positive cross-domain transfer of scientific tool-use capabilities. These results underscore the promising potential of next-generation autonomous scientific agents.

SciAgentGym: Een benchmark voor multi-stap wetenschappelijk toolgebruik in LLM-agenten

SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

Samenvatting

Support