DSGym: Un Marco Integral para la Evaluación y Entrenamiento de Agentes de Ciencia de Datos
DSGym: A Holistic Framework for Evaluating and Training Data Science Agents
January 22, 2026
Autores: Fan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou
cs.AI
Resumen
Los agentes de ciencia de datos prometen acelerar el descubrimiento y la generación de conocimientos mediante la transformación de datos en análisis y hallazgos ejecutables. Sin embargo, los puntos de referencia existentes en ciencia de datos son insuficientes debido a interfaces de evaluación fragmentadas que dificultan la comparación cruzada, una cobertura limitada de tareas y la falta de una base de datos rigurosa. En particular, demostramos que una porción sustancial de las tareas en los puntos de referencia actuales puede resolverse sin utilizar los datos reales. Para abordar estas limitaciones, presentamos DSGym, un marco estandarizado para evaluar y entrenar agentes de ciencia de datos en entornos de ejecución autónomos. A diferencia de los puntos de referencia estáticos, DSGym proporciona una arquitectura modular que facilita la incorporación de tareas, estructuras de agentes y herramientas, posicionándolo como un banco de pruebas vivo y extensible. Curaremos DSGym-Tasks, un conjunto integral de tareas que estandariza y refina los puntos de referencia existentes mediante filtros de calidad y capacidad de resolución por atajos. Ampliamos aún más la cobertura con (1) DSBio: tareas de bioinformática derivadas de expertos basadas en literatura científica y (2) DSPredict: tareas de predicción desafiantes que abarcan dominios como visión por computadora, predicción molecular y perturbación de células individuales. Más allá de la evaluación, DSGym permite el entrenamiento de agentes mediante una tubería de síntesis de datos verificada por ejecución. Como estudio de caso, construimos un conjunto de entrenamiento de 2,000 ejemplos y entrenamos un modelo de 4B en DSGym que supera a GPT-4o en puntos de referencia de análisis estandarizados. En general, DSGym permite una medición rigurosa de extremo a extremo sobre si los agentes pueden planificar, implementar y validar análisis de datos en contextos científicos realistas.
English
Data science agents promise to accelerate discovery and insight-generation by turning data into executable analyses and findings. Yet existing data science benchmarks fall short due to fragmented evaluation interfaces that make cross-benchmark comparison difficult, narrow task coverage and a lack of rigorous data grounding. In particular, we show that a substantial portion of tasks in current benchmarks can be solved without using the actual data. To address these limitations, we introduce DSGym, a standardized framework for evaluating and training data science agents in self-contained execution environments. Unlike static benchmarks, DSGym provides a modular architecture that makes it easy to add tasks, agent scaffolds, and tools, positioning it as a live, extensible testbed. We curate DSGym-Tasks, a holistic task suite that standardizes and refines existing benchmarks via quality and shortcut solvability filtering. We further expand coverage with (1) DSBio: expert-derived bioinformatics tasks grounded in literature and (2) DSPredict: challenging prediction tasks spanning domains such as computer vision, molecular prediction, and single-cell perturbation. Beyond evaluation, DSGym enables agent training via execution-verified data synthesis pipeline. As a case study, we build a 2,000-example training set and trained a 4B model in DSGym that outperforms GPT-4o on standardized analysis benchmarks. Overall, DSGym enables rigorous end-to-end measurement of whether agents can plan, implement, and validate data analyses in realistic scientific context.