DSGym: Uma Estrutura Holística para Avaliação e Treinamento de Agentes de Ciência de Dados

Resumo

Os agentes de ciência de dados prometem acelerar a descoberta e a geração de insights transformando dados em análises e descobertas executáveis. No entanto, os benchmarks existentes de ciência de dados são insuficientes devido a interfaces de avaliação fragmentadas que dificultam a comparação entre benchmarks, cobertura limitada de tarefas e falta de rigorosa fundamentação nos dados. Em particular, demonstramos que uma porção substancial das tarefas nos benchmarks atuais pode ser resolvida sem utilizar os dados reais. Para superar essas limitações, introduzimos o DSGym, uma estrutura padronizada para avaliar e treinar agentes de ciência de dados em ambientes de execução autônomos. Diferente de benchmarks estáticos, o DSGym fornece uma arquitetura modular que facilita a adição de tarefas, estruturas de agentes e ferramentas, posicionando-o como um banco de testes vivo e extensível. Curadamos o DSGym-Tasks, um conjunto holístico de tarefas que padroniza e refina benchmarks existentes por meio de filtragem de qualidade e solucionabilidade por atalhos. Expandimos ainda mais a cobertura com (1) DSBio: tarefas de bioinformática derivadas de especialistas, fundamentadas na literatura, e (2) DSPredict: tarefas de previsão desafiadoras abrangendo domínios como visão computacional, previsão molecular e perturbação de célula única. Além da avaliação, o DSGym permite o treinamento de agentes por meio de um pipeline de síntese de dados verificada por execução. Como estudo de caso, construímos um conjunto de treinamento com 2.000 exemplos e treinamos um modelo de 4B no DSGym que supera o GPT-4o em benchmarks de análise padronizados. No geral, o DSGym permite uma medição rigorosa de ponta a ponta sobre se os agentes podem planejar, implementar e validar análises de dados em contextos científicos realistas.

English

Data science agents promise to accelerate discovery and insight-generation by turning data into executable analyses and findings. Yet existing data science benchmarks fall short due to fragmented evaluation interfaces that make cross-benchmark comparison difficult, narrow task coverage and a lack of rigorous data grounding. In particular, we show that a substantial portion of tasks in current benchmarks can be solved without using the actual data. To address these limitations, we introduce DSGym, a standardized framework for evaluating and training data science agents in self-contained execution environments. Unlike static benchmarks, DSGym provides a modular architecture that makes it easy to add tasks, agent scaffolds, and tools, positioning it as a live, extensible testbed. We curate DSGym-Tasks, a holistic task suite that standardizes and refines existing benchmarks via quality and shortcut solvability filtering. We further expand coverage with (1) DSBio: expert-derived bioinformatics tasks grounded in literature and (2) DSPredict: challenging prediction tasks spanning domains such as computer vision, molecular prediction, and single-cell perturbation. Beyond evaluation, DSGym enables agent training via execution-verified data synthesis pipeline. As a case study, we build a 2,000-example training set and trained a 4B model in DSGym that outperforms GPT-4o on standardized analysis benchmarks. Overall, DSGym enables rigorous end-to-end measurement of whether agents can plan, implement, and validate data analyses in realistic scientific context.

DSGym: Uma Estrutura Holística para Avaliação e Treinamento de Agentes de Ciência de Dados

DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

Resumo

Support