ChatPaper.aiChatPaper

DAComp: Het benchmarken van data-agents in de volledige levenscyclus van data-intelligentie

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

December 3, 2025
Auteurs: Fangyu Lei, Jinxiang Meng, Yiming Huang, Junjie Zhao, Yitong Zhang, Jianwen Luo, Xin Zou, Ruiyi Yang, Wenbo Shi, Yan Gao, Shizhu He, Zuo Wang, Qian Liu, Yang Wang, Ke Wang, Jun Zhao, Kang Liu
cs.AI

Samenvatting

Real-world workflows voor data-intelligentie in bedrijven omvatten data-engineering die ruwe bronnen omzet in analyseklare tabellen, en data-analyse die deze tabellen omzet in op besluitvorming gerichte inzichten. Wij introduceren DAComp, een benchmark van 210 taken die deze complexe workflows weerspiegelt. Data-engineering (DE) taken vereisen repository-level engineering op industriële schema's, inclusief het ontwerpen en bouwen van meerfasige SQL-pipelines vanaf nul en het aanpassen van bestaande systemen onder evoluerende vereisten. Data-analyse (DA) taken stellen open-einde bedrijfsproblemen die strategische planning, verkennende analyse door iteratieve codering, interpretatie van tussentijdse resultaten en de synthese van actiegerichte aanbevelingen vereisen. Engineeringtaken worden beoordeeld via een op uitvoering gebaseerde, multi-metrische evaluatie. Open-einde taken worden beoordeeld door een betrouwbare, experimenteel gevalideerde LLM-beoordelaar, die wordt geleid door hiërarchische, nauwkeurig opgestelde beoordelingsrubrics. Onze experimenten tonen aan dat zelfs state-of-the-art agents falen op DAComp. De prestaties op DE-taken zijn bijzonder laag, met slagingspercentages onder de 20%, wat een kritieke bottleneck blootlegt in de holistische orkestratie van pipelines, niet slechts in codegeneratie. Scores op DA-taken zijn gemiddeld ook lager dan 40%, wat diepgaande tekortkomingen in open-einde redenering aantoont en bevestigt dat engineering en analyse verschillende capaciteiten zijn. Door deze beperkingen duidelijk te diagnosticeren, biedt DAComp een rigoureus en realistisch testplatform om de ontwikkeling van echt capabele autonome data-agents voor bedrijfsomgevingen te stimuleren. Onze data en code zijn beschikbaar op https://da-comp.github.io.
English
Real-world enterprise data intelligence workflows encompass data engineering that turns raw sources into analytical-ready tables and data analysis that convert those tables into decision-oriented insights. We introduce DAComp, a benchmark of 210 tasks that mirrors these complex workflows. Data engineering (DE) tasks require repository-level engineering on industrial schemas, including designing and building multi-stage SQL pipelines from scratch and evolving existing systems under evolving requirements. Data analysis (DA) tasks pose open-ended business problems that demand strategic planning, exploratory analysis through iterative coding, interpretation of intermediate results, and the synthesis of actionable recommendations. Engineering tasks are scored through execution-based, multi-metric evaluation. Open-ended tasks are assessed by a reliable, experimentally validated LLM-judge, which is guided by hierarchical, meticulously crafted rubrics. Our experiments reveal that even state-of-the-art agents falter on DAComp. Performance on DE tasks is particularly low, with success rates under 20%, exposing a critical bottleneck in holistic pipeline orchestration, not merely code generation. Scores on DA tasks also average below 40%, highlighting profound deficiencies in open-ended reasoning and demonstrating that engineering and analysis are distinct capabilities. By clearly diagnosing these limitations, DAComp provides a rigorous and realistic testbed to drive the development of truly capable autonomous data agents for enterprise settings. Our data and code are available at https://da-comp.github.io
PDF1486December 21, 2025