DSGym: Een Holistisch Kader voor de Evaluatie en Training van Data Science Agents

Samenvatting

Data science-agents beloven de ontdekking en generatie van inzichten te versnellen door data om te zetten in uitvoerbare analyses en bevindingen. Toch schieten bestaande data science-benchmarks tekort door gefragmenteerde evaluatie-interfaces die kruisbenchmarkvergelijking bemoeilijken, beperkte taakdekking en een gebrek aan rigoureuze datagronding. We tonen aan dat een aanzienlijk deel van de taken in huidige benchmarks opgelost kan worden zonder de werkelijke data te gebruiken. Om deze beperkingen aan te pakken, introduceren we DSGym, een gestandaardiseerd raamwerk voor het evalueren en trainen van data science-agents in zelfstandige uitvoeringsomgevingen. In tegenstelling tot statische benchmarks biedt DSGym een modulaire architectuur die het eenvoudig maakt om taken, agent-scaffolds en tools toe te voegen, waardoor het zich positioneert als een levende, uitbreidbare testomgeving. We hebben DSGym-Tasks samengesteld, een holistische takenreeks die bestaande benchmarks standaardiseert en verfijnt via kwaliteits- en shortcut-oplosbaarheidsfiltering. We breiden de dekking verder uit met (1) DSBio: expert-afgeleide bioinformatica-taken gegrond in literatuur en (2) DSPredict: uitdagende voorspellingstaken over domeinen zoals computervisie, moleculaire voorspelling en single-cell perturbatie. Naast evaluatie maakt DSGym agent-training mogelijk via een uitvoeringsgeverifieerde datasynthesepijplijn. Als casestudy bouwden we een trainingsset van 2.000 voorbeelden en trainden een 4B-model in DSGym dat beter presteert dan GPT-4o op gestandaardiseerde analysebenchmarks. Over het geheel genomen stelt DSGym rigoureuze end-to-end meting in staat van of agents data-analyses kunnen plannen, implementeren en valideren in realistische wetenschappelijke contexten.

English

Data science agents promise to accelerate discovery and insight-generation by turning data into executable analyses and findings. Yet existing data science benchmarks fall short due to fragmented evaluation interfaces that make cross-benchmark comparison difficult, narrow task coverage and a lack of rigorous data grounding. In particular, we show that a substantial portion of tasks in current benchmarks can be solved without using the actual data. To address these limitations, we introduce DSGym, a standardized framework for evaluating and training data science agents in self-contained execution environments. Unlike static benchmarks, DSGym provides a modular architecture that makes it easy to add tasks, agent scaffolds, and tools, positioning it as a live, extensible testbed. We curate DSGym-Tasks, a holistic task suite that standardizes and refines existing benchmarks via quality and shortcut solvability filtering. We further expand coverage with (1) DSBio: expert-derived bioinformatics tasks grounded in literature and (2) DSPredict: challenging prediction tasks spanning domains such as computer vision, molecular prediction, and single-cell perturbation. Beyond evaluation, DSGym enables agent training via execution-verified data synthesis pipeline. As a case study, we build a 2,000-example training set and trained a 4B model in DSGym that outperforms GPT-4o on standardized analysis benchmarks. Overall, DSGym enables rigorous end-to-end measurement of whether agents can plan, implement, and validate data analyses in realistic scientific context.

DSGym: Een Holistisch Kader voor de Evaluatie en Training van Data Science Agents

DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

Samenvatting

Support