ChatPaper.aiChatPaper

DSAEval:多様な実世界データサイエンス課題におけるデータサイエンスエージェントの評価

DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems

January 20, 2026
著者: Maojun Sun, Yifei Xie, Yue Wu, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang
cs.AI

要旨

近年のLLMベースのデータエージェントは、データ分析から深層学習に至るデータサイエンスタスクの自動化を目指している。しかし、現実世界のデータサイエンス課題は、複数の分類体系にまたがり標準的な答えが存在しないというオープンエンドな性質を持つため、評価において重大な課題となっている。この問題に対処するため、我々はDSAEvalを提案する。これは285の多様なデータセットに基づく641の現実世界のデータサイエンス問題から構成されるベンチマークであり、構造化データと非構造化データ(画像やテキストなど)の両方をカバーしている。DSAEvalには3つの特徴的な要素がある:(1) マルチモーダル環境知覚:エージェントがテキストや画像を含む複数のモダリティから観察結果を解釈することを可能にする、(2) マルチクエリ相互作用:現実世界のデータサイエンスプロジェクトの反復的かつ累積的な性質を反映する、(3) 多次元評価:推論、コード、結果にわたる総合的な評価を提供する。我々はDSAEvalを用いて11の先進的なエージェント型LLMを体系的に評価した。その結果、Claude-Sonnet-4.5が総合的に最も優れた性能を発揮し、GPT-5.2が最も効率的であり、MiMo-V2-Flashが最もコスト効率に優れていることがわかった。さらに、マルチモーダル知覚が画像関連タスクの性能を一貫して向上させ(2.04%から11.30%の向上)、構造化データと定型的なデータ分析ワークフローでは現在のデータサイエンスエージェントは良好に機能するものの、非構造化データ領域では依然として大きな課題が残されていることを示した。最後に、データサイエンスエージェントの開発を推進するための批判的考察と今後の研究方向性を示す。
English
Recent LLM-based data agents aim to automate data science tasks ranging from data analysis to deep learning. However, the open-ended nature of real-world data science problems, which often span multiple taxonomies and lack standard answers, poses a significant challenge for evaluation. To address this, we introduce DSAEval, a benchmark comprising 641 real-world data science problems grounded in 285 diverse datasets, covering both structured and unstructured data (e.g., vision and text). DSAEval incorporates three distinctive features: (1) Multimodal Environment Perception, which enables agents to interpret observations from multiple modalities including text and vision; (2) Multi-Query Interactions, which mirror the iterative and cumulative nature of real-world data science projects; and (3) Multi-Dimensional Evaluation, which provides a holistic assessment across reasoning, code, and results. We systematically evaluate 11 advanced agentic LLMs using DSAEval. Our results show that Claude-Sonnet-4.5 achieves the strongest overall performance, GPT-5.2 is the most efficient, and MiMo-V2-Flash is the most cost-effective. We further demonstrate that multimodal perception consistently improves performance on vision-related tasks, with gains ranging from 2.04% to 11.30%. Overall, while current data science agents perform well on structured data and routine data anlysis workflows, substantial challenges remain in unstructured domains. Finally, we offer critical insights and outline future research directions to advance the development of data science agents.
PDF11January 22, 2026