ChatPaper.aiChatPaper

DAComp: Benchmarking von Datenagenten über den gesamten Datenintelligenz-Lebenszyklus

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

December 3, 2025
papers.authors: Fangyu Lei, Jinxiang Meng, Yiming Huang, Junjie Zhao, Yitong Zhang, Jianwen Luo, Xin Zou, Ruiyi Yang, Wenbo Shi, Yan Gao, Shizhu He, Zuo Wang, Qian Liu, Yang Wang, Ke Wang, Jun Zhao, Kang Liu
cs.AI

papers.abstract

Praktische Data-Intelligence-Workflows in Unternehmen umfassen Data Engineering, das Rohdatenquellen in analysiertereife Tabellen überführt, und Datenanalyse, die diese Tabellen in entscheidungsorientierte Erkenntnisse umwandelt. Wir stellen DAComp vor, einen Benchmark mit 210 Aufgaben, der diese komplexen Workflows widerspiegelt. Data-Engineering(DE)-Aufgaben erfordern repository-weites Engineering an industriellen Schemata, einschließlich des Designs und der Erstellung mehrstufiger SQL-Pipelines von Grund auf sowie der Weiterentwicklung bestehender Systeme unter sich ändernden Anforderungen. Data-Analysis(DA)-Aufgaben stellen offene Geschäftsprobleme dar, die strategische Planung, explorative Analyse durch iteratives Codieren, Interpretation von Zwischenergebnissen und die Synthese umsetzbarer Empfehlungen erfordern. Engineering-Aufgaben werden durch eine ausführungsbasierte, multimetrische Evaluation bewertet. Offene Aufgaben werden von einem zuverlässigen, experimentell validierten LLM-Judge beurteilt, der durch hierarchische, sorgfältig erstellte Bewertungsraster geleitet wird. Unsere Experimente zeigen, dass selbst modernste Agenten bei DAComp scheitern. Die Leistung bei DE-Aufgaben ist besonders gering, mit Erfolgsquoten unter 20 %, was einen kritischen Engpass in der ganzheitlichen Pipeline-Orchestrierung und nicht nur in der Code-Generierung offenlegt. Die Bewertungen bei DA-Aufgaben liegen im Durchschnitt ebenfalls unter 40 %, was tiefgreifende Defizite im offenen Schlussfolgern aufzeigt und demonstriert, dass Engineering und Analyse unterschiedliche Fähigkeiten sind. Indem DAComp diese Grenzen klar diagnostiziert, bietet es eine rigorose und realistische Testumgebung, um die Entwicklung wirklich fähiger autonomer Datenagenten für Unternehmensumgebungen voranzutreiben. Unsere Daten und unser Code sind verfügbar unter https://da-comp.github.io.
English
Real-world enterprise data intelligence workflows encompass data engineering that turns raw sources into analytical-ready tables and data analysis that convert those tables into decision-oriented insights. We introduce DAComp, a benchmark of 210 tasks that mirrors these complex workflows. Data engineering (DE) tasks require repository-level engineering on industrial schemas, including designing and building multi-stage SQL pipelines from scratch and evolving existing systems under evolving requirements. Data analysis (DA) tasks pose open-ended business problems that demand strategic planning, exploratory analysis through iterative coding, interpretation of intermediate results, and the synthesis of actionable recommendations. Engineering tasks are scored through execution-based, multi-metric evaluation. Open-ended tasks are assessed by a reliable, experimentally validated LLM-judge, which is guided by hierarchical, meticulously crafted rubrics. Our experiments reveal that even state-of-the-art agents falter on DAComp. Performance on DE tasks is particularly low, with success rates under 20%, exposing a critical bottleneck in holistic pipeline orchestration, not merely code generation. Scores on DA tasks also average below 40%, highlighting profound deficiencies in open-ended reasoning and demonstrating that engineering and analysis are distinct capabilities. By clearly diagnosing these limitations, DAComp provides a rigorous and realistic testbed to drive the development of truly capable autonomous data agents for enterprise settings. Our data and code are available at https://da-comp.github.io
PDF1202December 6, 2025