DAComp:データインテリジェンスライフサイクル全体におけるデータエージェントのベンチマーキング
DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle
December 3, 2025
著者: Fangyu Lei, Jinxiang Meng, Yiming Huang, Junjie Zhao, Yitong Zhang, Jianwen Luo, Xin Zou, Ruiyi Yang, Wenbo Shi, Yan Gao, Shizhu He, Zuo Wang, Qian Liu, Yang Wang, Ke Wang, Jun Zhao, Kang Liu
cs.AI
要旨
現実の企業におけるデータインテリジェンスワークフローは、生データを分析可能なテーブルに変換するデータエンジニアリングと、それらのテーブルを意思決定指向の洞察に変換するデータ分析から構成されます。本論文では、こうした複雑なワークフローを反映した210のタスクからなるベンチマーク「DAComp」を提案します。データエンジニアリング(DE)タスクは、産業レベルのスキーマに対するリポジトリレベルでのエンジニアリングを要求し、ゼロから多段階のSQLパイプラインを設計・構築することや、変化する要件に対応した既存システムの進化を含みます。データ分析(DA)タスクは、戦略的計画、反復的なコーディングによる探索的分析、中間結果の解釈、実践的な提言の統合を必要とするオープンエンドのビジネス課題を提起します。エンジニアリングタスクは、実行ベースの多角的評価によって採点されます。オープンエンドタスクは、階層的で入念に設計された評価基準に基づく、信頼性が実験的に検証されたLLM判定者によって評価されます。実験結果から、最先端のエージェントであってもDACompでは課題に直面することが明らかになりました。DEタスクの成功率は20%未満と特に低く、単なるコード生成ではなく、ホリスティックなパイプラインオーケストレーションにおける重大なボトルネックが浮き彫りになりました。DAタスクのスコアも平均40%未満であり、オープンエンド推論における深刻な不足が示され、エンジニアリングと分析が異なる能力であることが実証されました。DACompはこれらの限界を明確に診断することで、企業環境において真に有能な自律データエージェントの開発を推進する厳密かつ現実的なテストベッドを提供します。データとコードはhttps://da-comp.github.ioで公開されています。
English
Real-world enterprise data intelligence workflows encompass data engineering that turns raw sources into analytical-ready tables and data analysis that convert those tables into decision-oriented insights. We introduce DAComp, a benchmark of 210 tasks that mirrors these complex workflows. Data engineering (DE) tasks require repository-level engineering on industrial schemas, including designing and building multi-stage SQL pipelines from scratch and evolving existing systems under evolving requirements. Data analysis (DA) tasks pose open-ended business problems that demand strategic planning, exploratory analysis through iterative coding, interpretation of intermediate results, and the synthesis of actionable recommendations. Engineering tasks are scored through execution-based, multi-metric evaluation. Open-ended tasks are assessed by a reliable, experimentally validated LLM-judge, which is guided by hierarchical, meticulously crafted rubrics. Our experiments reveal that even state-of-the-art agents falter on DAComp. Performance on DE tasks is particularly low, with success rates under 20%, exposing a critical bottleneck in holistic pipeline orchestration, not merely code generation. Scores on DA tasks also average below 40%, highlighting profound deficiencies in open-ended reasoning and demonstrating that engineering and analysis are distinct capabilities. By clearly diagnosing these limitations, DAComp provides a rigorous and realistic testbed to drive the development of truly capable autonomous data agents for enterprise settings. Our data and code are available at https://da-comp.github.io