DSGym: un framework olistico per la valutazione e l'addestramento di agenti di data science

Abstract

Gli agenti di data science promettono di accelerare la scoperta e la generazione di insight trasformando i dati in analisi e risultati eseguibili. Tuttavia, gli attuali benchmark di data science presentano carenze a causa di interfacce di valutazione frammentate che rendono difficile il confronto trasversale, di una copertura limitata dei compiti e della mancanza di un rigoroso ancoraggio ai dati. In particolare, dimostriamo che una porzione significativa dei compiti negli attuali benchmark può essere risolta senza utilizzare i dati effettivi. Per affrontare queste limitazioni, introduciamo DSGym, un framework standardizzato per valutare e addestrare agenti di data science in ambienti di esecuzione autonomi. A differenza dei benchmark statici, DSGym fornisce un'architettura modulare che semplifica l'aggiunta di compiti, scaffold per agenti e strumenti, configurandolo come un banco di prova vivente ed estensibile. Curiamo DSGym-Tasks, una suite di compiti olistica che standardizza e affina i benchmark esistenti attraverso filtri di qualità e di risolvibilità per scorciatoie. Estendiamo ulteriormente la copertura con (1) DSBio: compiti di bioinformatica derivati da esperti e basati sulla letteratura, e (2) DSPredict: compiti predittivi impegnativi che spaziano in domini come la computer vision, la predizione molecolare e le perturbazioni a cellula singola. Oltre alla valutazione, DSGym consente l'addestramento degli agenti attraverso una pipeline di sintesi dati verificata dall'esecuzione. Come caso di studio, abbiamo costruito un set di addestramento di 2.000 esempi e addestrato un modello da 4B in DSGym che supera GPT-4o su benchmark di analisi standardizzati. In sintesi, DSGym consente una misurazione rigorosa end-to-end della capacità degli agenti di pianificare, implementare e convalidare analisi dei dati in contesti scientifici realistici.

English

Data science agents promise to accelerate discovery and insight-generation by turning data into executable analyses and findings. Yet existing data science benchmarks fall short due to fragmented evaluation interfaces that make cross-benchmark comparison difficult, narrow task coverage and a lack of rigorous data grounding. In particular, we show that a substantial portion of tasks in current benchmarks can be solved without using the actual data. To address these limitations, we introduce DSGym, a standardized framework for evaluating and training data science agents in self-contained execution environments. Unlike static benchmarks, DSGym provides a modular architecture that makes it easy to add tasks, agent scaffolds, and tools, positioning it as a live, extensible testbed. We curate DSGym-Tasks, a holistic task suite that standardizes and refines existing benchmarks via quality and shortcut solvability filtering. We further expand coverage with (1) DSBio: expert-derived bioinformatics tasks grounded in literature and (2) DSPredict: challenging prediction tasks spanning domains such as computer vision, molecular prediction, and single-cell perturbation. Beyond evaluation, DSGym enables agent training via execution-verified data synthesis pipeline. As a case study, we build a 2,000-example training set and trained a 4B model in DSGym that outperforms GPT-4o on standardized analysis benchmarks. Overall, DSGym enables rigorous end-to-end measurement of whether agents can plan, implement, and validate data analyses in realistic scientific context.

DSGym: un framework olistico per la valutazione e l'addestramento di agenti di data science

DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

Abstract

Support