DSGym: 데이터 사이언스 에이전트 평가 및 훈련을 위한 종합 프레임워크
DSGym: A Holistic Framework for Evaluating and Training Data Science Agents
January 22, 2026
저자: Fan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou
cs.AI
초록
데이터 과학 에이전트는 데이터를 실행 가능한 분석과 발견으로 전환함으로써 발견과 통찰력 생성의 가속화를 약속합니다. 그러나 기존 데이터 과학 벤치마크는 단편적인 평가 인터페이스로 인해 벤치마크 간 비교가 어렵고, 제한된 작업 범위, 엄격한 데이터 기반의 부재 등의 한계를 지닙니다. 특히, 현재 벤치마크 과제의 상당 부분은 실제 데이터를 사용하지 않고도 해결될 수 있음을 보여줍니다. 이러한 한계를 해결하기 위해 우리는 독립 실행 환경에서 데이터 과학 에이전트를 평가하고 훈련시키기 위한 표준화된 프레임워크인 DSGym을 소개합니다. 정적 벤치마크와 달리 DSGym은 과제, 에이전트 스캐폴드 및 도구를 쉽게 추가할 수 있는 모듈식 아키텍처를 제공하여 이를 확장 가능한 실시간 테스트베드로 위치 짓습니다. 우리는 DSGym-Tasks를 정성적으로 큐레이팅하였는데, 이는 기존 벤치마크를 품질 및 단축 해결 가능성 필터링을 통해 표준화하고 개선한 종합 과제 모음입니다. 우리는 (1) 문헌에 기반한 전문가 파생 생물정보학 과제인 DSBio와 (2) 컴퓨터 비전, 분자 예측, 단일 세포 변이 등 다양한 영역을 아우르는 도전적인 예측 과제인 DSPredict를 통해 범위를 더욱 확장했습니다. 평가를 넘어 DSGym은 실행 검증된 데이터 합성 파이프라인을 통해 에이전트 훈련을 가능하게 합니다. 사례 연구로서, 우리는 2,000개의 예시로 구성된 훈련 세트를 구축하고 DSGym 내에서 40억 개의 매개변수를 가진 모델을 훈련시켜 표준화된 분석 벤치마크에서 GPT-4o을 능가하는 성능을 달성했습니다. 전반적으로 DSGym은 에이전트가 현실적인 과학적 맥락에서 데이터 분석을 계획하고, 구현하며, 검증할 수 있는지에 대한 엄격한 종단간 측정을 가능하게 합니다.
English
Data science agents promise to accelerate discovery and insight-generation by turning data into executable analyses and findings. Yet existing data science benchmarks fall short due to fragmented evaluation interfaces that make cross-benchmark comparison difficult, narrow task coverage and a lack of rigorous data grounding. In particular, we show that a substantial portion of tasks in current benchmarks can be solved without using the actual data. To address these limitations, we introduce DSGym, a standardized framework for evaluating and training data science agents in self-contained execution environments. Unlike static benchmarks, DSGym provides a modular architecture that makes it easy to add tasks, agent scaffolds, and tools, positioning it as a live, extensible testbed. We curate DSGym-Tasks, a holistic task suite that standardizes and refines existing benchmarks via quality and shortcut solvability filtering. We further expand coverage with (1) DSBio: expert-derived bioinformatics tasks grounded in literature and (2) DSPredict: challenging prediction tasks spanning domains such as computer vision, molecular prediction, and single-cell perturbation. Beyond evaluation, DSGym enables agent training via execution-verified data synthesis pipeline. As a case study, we build a 2,000-example training set and trained a 4B model in DSGym that outperforms GPT-4o on standardized analysis benchmarks. Overall, DSGym enables rigorous end-to-end measurement of whether agents can plan, implement, and validate data analyses in realistic scientific context.