ChatPaper.aiChatPaper

DSGym: Комплексная система для оценки и обучения агентов в области науки о данных

DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

January 22, 2026
Авторы: Fan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou
cs.AI

Аннотация

Агенты в области науки о данных обещают ускорить процесс открытий и генерации инсайтов, преобразуя данные в исполняемые анализы и выводы. Однако существующие бенчмарки для науки о данных не справляются с этой задачей из-за фрагментированных интерфейсов оценки, затрудняющих кросс-бенчмарковое сравнение, узкого охвата задач и отсутствия строгой привязки к данным. В частности, мы показываем, что значительную часть задач в текущих бенчмарках можно решить без использования реальных данных. Чтобы устранить эти ограничения, мы представляем DSGym — стандартизированную платформу для оценки и обучения агентов науки о данных в изолированных средах исполнения. В отличие от статических бенчмарков, DSGym предлагает модульную архитектуру, которая упрощает добавление задач, каркасов агентов и инструментов, позиционируя её как живую, расширяемую испытательную площадку. Мы курируем DSGym-Tasks — комплексный набор задач, который стандартизирует и улучшает существующие бенчмарки с помощью фильтрации по качеству и устранимости с помощью ярлыков. Мы дополнительно расширяем охват с помощью (1) DSBio: экспертных биоинформатических задач, основанных на литературе, и (2) DSPredict: сложных прогностических задач из таких областей, как компьютерное зрение, молекулярное прогнозирование и прогнозирование последствий воздействия на отдельные клетки. Помимо оценки, DSGym позволяет обучать агентов с помощью конвейера синтеза данных, проверенного исполнением. В качестве примера мы создали обучающий набор из 2000 примеров и обучили модель объёмом 4 млрд параметров в DSGym, которая превзошла GPT-4o на стандартизированных аналитических бенчмарках. В целом, DSGym позволяет проводить строгие сквозные измерения способности агентов планировать, реализовывать и проверять анализ данных в реалистичном научном контексте.
English
Data science agents promise to accelerate discovery and insight-generation by turning data into executable analyses and findings. Yet existing data science benchmarks fall short due to fragmented evaluation interfaces that make cross-benchmark comparison difficult, narrow task coverage and a lack of rigorous data grounding. In particular, we show that a substantial portion of tasks in current benchmarks can be solved without using the actual data. To address these limitations, we introduce DSGym, a standardized framework for evaluating and training data science agents in self-contained execution environments. Unlike static benchmarks, DSGym provides a modular architecture that makes it easy to add tasks, agent scaffolds, and tools, positioning it as a live, extensible testbed. We curate DSGym-Tasks, a holistic task suite that standardizes and refines existing benchmarks via quality and shortcut solvability filtering. We further expand coverage with (1) DSBio: expert-derived bioinformatics tasks grounded in literature and (2) DSPredict: challenging prediction tasks spanning domains such as computer vision, molecular prediction, and single-cell perturbation. Beyond evaluation, DSGym enables agent training via execution-verified data synthesis pipeline. As a case study, we build a 2,000-example training set and trained a 4B model in DSGym that outperforms GPT-4o on standardized analysis benchmarks. Overall, DSGym enables rigorous end-to-end measurement of whether agents can plan, implement, and validate data analyses in realistic scientific context.
PDF81January 27, 2026