ChatPaper.aiChatPaper

DSGym: Ein ganzheitlicher Rahmen zur Bewertung und Schulung von Data-Science-Agenten

DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

January 22, 2026
papers.authors: Fan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou
cs.AI

papers.abstract

Data-Science-Agents versprechen, die Entdeckung und Erkenntnisgenerierung zu beschleunigen, indem sie Daten in ausführbare Analysen und Ergebnisse umwandeln. Bisherige Data-Science-Benchmarks sind jedoch unzureichend, da sie über fragmentierte Evaluierungsschnittstellen verfügen, die Benchmark-übergreifende Vergleiche erschweren, ein begrenztes Aufgabenspektrum abdecken und eine mangelnde rigorose Datenbasis aufweisen. Insbesondere zeigen wir, dass ein erheblicher Teil der Aufgaben in aktuellen Benchmarks gelöst werden kann, ohne die tatsächlichen Daten zu verwenden. Um diese Einschränkungen zu adressieren, führen wir DSGym ein, einen standardisierten Rahmen zur Evaluierung und zum Training von Data-Science-Agents in abgeschlossenen Ausführungsumgebungen. Im Gegensatz zu statischen Benchmarks bietet DSGym eine modulare Architektur, die es einfach macht, Aufgaben, Agenten-Grundgerüste und Werkzeuge hinzuzufügen, und positioniert es so als eine lebendige, erweiterbare Testplattform. Wir haben DSGym-Tasks kuratiert, eine ganzheitliche Aufgabensammlung, die bestehende Benchmarks standardisiert und verfeinert, indem sie nach Qualität und der Möglichkeit von Kurzschlusslösungen filtert. Wir erweitern die Abdeckung weiter mit (1) DSBio: expertengestützten Bioinformatik-Aufgaben, die in der Literatur verankert sind, und (2) DSPredict: anspruchsvollen Vorhersageaufgaben aus Bereichen wie Computer Vision, molekularer Prädiktion und Einzelzell-Perturbation. Über die Evaluierung hinaus ermöglicht DSGym das Training von Agents durch eine ausführungsverifizierte Daten-Synthese-Pipeline. Als Fallstudie haben wir einen Trainingsdatensatz mit 2.000 Beispielen erstellt und in DSGym ein 4B-Modell trainiert, das in standardisierten Analyse-Benchmarks GPT-4o übertrifft. Insgesamt ermöglicht DSGym eine rigorose End-to-End-Messung, ob Agents Datenanalysen in realistischen wissenschaftlichen Kontexten planen, implementieren und validieren können.
English
Data science agents promise to accelerate discovery and insight-generation by turning data into executable analyses and findings. Yet existing data science benchmarks fall short due to fragmented evaluation interfaces that make cross-benchmark comparison difficult, narrow task coverage and a lack of rigorous data grounding. In particular, we show that a substantial portion of tasks in current benchmarks can be solved without using the actual data. To address these limitations, we introduce DSGym, a standardized framework for evaluating and training data science agents in self-contained execution environments. Unlike static benchmarks, DSGym provides a modular architecture that makes it easy to add tasks, agent scaffolds, and tools, positioning it as a live, extensible testbed. We curate DSGym-Tasks, a holistic task suite that standardizes and refines existing benchmarks via quality and shortcut solvability filtering. We further expand coverage with (1) DSBio: expert-derived bioinformatics tasks grounded in literature and (2) DSPredict: challenging prediction tasks spanning domains such as computer vision, molecular prediction, and single-cell perturbation. Beyond evaluation, DSGym enables agent training via execution-verified data synthesis pipeline. As a case study, we build a 2,000-example training set and trained a 4B model in DSGym that outperforms GPT-4o on standardized analysis benchmarks. Overall, DSGym enables rigorous end-to-end measurement of whether agents can plan, implement, and validate data analyses in realistic scientific context.
PDF81January 27, 2026