ChatPaper.aiChatPaper

DSGym: データサイエンスエージェントの評価とトレーニングのための包括的フレームワーク

DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

January 22, 2026
著者: Fan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou
cs.AI

要旨

データサイエンスエージェントは、データを実行可能な分析と知見に変換することで、発見と洞察生成を加速することが期待されている。しかし、既存のデータサイエンスベンチマークは、ベンチマーク間の比較を困難にする断片的な評価インターフェース、狭いタスク範囲、厳密なデータに基づいた評価の欠如により、不十分である。特に、現在のベンチマークのタスクの大部分が、実際のデータを使用せずに解決可能であることを示す。これらの限界に対処するため、我々は独立した実行環境でデータサイエンスエージェントを評価・訓練するための標準化されたフレームワークであるDSGymを提案する。静的なベンチマークとは異なり、DSGymはモジュール式アーキテクチャを提供し、タスク、エージェントスキャフォールド、ツールの追加を容易にし、拡張可能なライブなテストベッドとして位置づけられる。我々は、既存のベンチマークを品質とショートカット解決可能性フィルタリングを通じて標準化・精選した総合的なタスクスイートであるDSGym-Tasksを構築した。さらに、(1)文献に基づいた専門家由来のバイオインフォマティクスタスクであるDSBioと、(2)コンピュータビジョン、分子予測、単一細胞摂動などの分野にわたる挑戦的な予測タスクであるDSPredictにより、対象範囲を拡大した。評価に加えて、DSGymは実行検証済みデータ合成パイプラインによるエージェント訓練を可能にする。事例研究として、2,000例の訓練セットを構築し、4BパラメータのモデルをDSGymで訓練したところ、標準化された分析ベンチマークにおいてGPT-4oを上回る性能を示した。全体として、DSGymは、エージェントが現実的な科学技術文脈においてデータ分析を計画し、実装し、検証できるかを厳密にエンドツーエンドで測定することを可能にする。
English
Data science agents promise to accelerate discovery and insight-generation by turning data into executable analyses and findings. Yet existing data science benchmarks fall short due to fragmented evaluation interfaces that make cross-benchmark comparison difficult, narrow task coverage and a lack of rigorous data grounding. In particular, we show that a substantial portion of tasks in current benchmarks can be solved without using the actual data. To address these limitations, we introduce DSGym, a standardized framework for evaluating and training data science agents in self-contained execution environments. Unlike static benchmarks, DSGym provides a modular architecture that makes it easy to add tasks, agent scaffolds, and tools, positioning it as a live, extensible testbed. We curate DSGym-Tasks, a holistic task suite that standardizes and refines existing benchmarks via quality and shortcut solvability filtering. We further expand coverage with (1) DSBio: expert-derived bioinformatics tasks grounded in literature and (2) DSPredict: challenging prediction tasks spanning domains such as computer vision, molecular prediction, and single-cell perturbation. Beyond evaluation, DSGym enables agent training via execution-verified data synthesis pipeline. As a case study, we build a 2,000-example training set and trained a 4B model in DSGym that outperforms GPT-4o on standardized analysis benchmarks. Overall, DSGym enables rigorous end-to-end measurement of whether agents can plan, implement, and validate data analyses in realistic scientific context.
PDF81January 27, 2026