DSGym : Un cadre holistique pour l'évaluation et l'entraînement des agents en science des données

Résumé

Les agents de science des données promettent d'accélérer la découverte et la génération d'informations en transformant les données en analyses et résultats exécutables. Pourtant, les benchmarks existants en science des données présentent des lacunes en raison d'interfaces d'évaluation fragmentées qui rendent les comparaisons inter-banques difficiles, d'une couverture étroite des tâches et d'un manque de fondation rigoureuse sur les données. Nous montrons en particulier qu'une part substantielle des tâches des benchmarks actuels peut être résolue sans utiliser les données réelles. Pour pallier ces limitations, nous présentons DSGym, un cadre standardisé pour évaluer et entraîner des agents de science des données dans des environnements d'exécution autonomes. Contrairement aux benchmarks statiques, DSGym offre une architecture modulaire qui facilite l'ajout de tâches, de squelettes d'agents et d'outils, le positionnant comme un banc d'essai vivant et extensible. Nous avons constitué DSGym-Tasks, une suite de tâches holistique qui standardise et affine les benchmarks existants via un filtrage qualité et de résolvabilité par raccourcis. Nous élargissons davantage la couverture avec (1) DSBio : des tâches de bio-informatique dérivées d'experts et ancrées dans la littérature, et (2) DSPredict : des tâches de prédiction difficiles couvrant des domaines comme la vision par ordinateur, la prédiction moléculaire et la perturbation unicellulaire. Au-delà de l'évaluation, DSGym permet l'entraînement d'agents via un pipeline de synthèse de données vérifié par exécution. Comme étude de cas, nous avons construit un jeu d'entraînement de 2 000 exemples et entraîné un modèle de 4B dans DSGym qui surpasse GPT-4o sur des benchmarks d'analyse standardisés. Globalement, DSGym permet une mesure rigoureuse de bout en bout de la capacité des agents à planifier, implémenter et valider des analyses de données dans un contexte scientifique réaliste.

English

Data science agents promise to accelerate discovery and insight-generation by turning data into executable analyses and findings. Yet existing data science benchmarks fall short due to fragmented evaluation interfaces that make cross-benchmark comparison difficult, narrow task coverage and a lack of rigorous data grounding. In particular, we show that a substantial portion of tasks in current benchmarks can be solved without using the actual data. To address these limitations, we introduce DSGym, a standardized framework for evaluating and training data science agents in self-contained execution environments. Unlike static benchmarks, DSGym provides a modular architecture that makes it easy to add tasks, agent scaffolds, and tools, positioning it as a live, extensible testbed. We curate DSGym-Tasks, a holistic task suite that standardizes and refines existing benchmarks via quality and shortcut solvability filtering. We further expand coverage with (1) DSBio: expert-derived bioinformatics tasks grounded in literature and (2) DSPredict: challenging prediction tasks spanning domains such as computer vision, molecular prediction, and single-cell perturbation. Beyond evaluation, DSGym enables agent training via execution-verified data synthesis pipeline. As a case study, we build a 2,000-example training set and trained a 4B model in DSGym that outperforms GPT-4o on standardized analysis benchmarks. Overall, DSGym enables rigorous end-to-end measurement of whether agents can plan, implement, and validate data analyses in realistic scientific context.

DSGym : Un cadre holistique pour l'évaluation et l'entraînement des agents en science des données

DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

Résumé

Support