ChatPaper.aiChatPaper

DAComp: Valutazione Comparativa degli Agenti di Dati nell'Intero Ciclo di Vita dell'Intelligenza dei Dati

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

December 3, 2025
Autori: Fangyu Lei, Jinxiang Meng, Yiming Huang, Junjie Zhao, Yitong Zhang, Jianwen Luo, Xin Zou, Ruiyi Yang, Wenbo Shi, Yan Gao, Shizhu He, Zuo Wang, Qian Liu, Yang Wang, Ke Wang, Jun Zhao, Kang Liu
cs.AI

Abstract

I flussi di lavoro reali di data intelligence aziendale comprendono l'ingegneria dei dati che trasforma le fonti grezze in tabelle pronte per l'analisi e l'analisi dei dati che converte tali tabelle in insight orientati alle decisioni. Presentiamo DAComp, un benchmark di 210 task che rispecchia questi flussi di lavoro complessi. I task di ingegneria dei dati (DE) richiedono un'ingegneria a livello di repository su schemi industriali, inclusi la progettazione e la costruzione di pipeline SQL multi-stadio da zero e l'evoluzione di sistemi esistenti sotto requisiti in evoluzione. I task di analisi dei dati (DA) pongono problemi aziendali aperti che richiedono pianificazione strategica, analisi esplorativa attraverso codifica iterativa, interpretazione di risultati intermedi e la sintesi di raccomandazioni attuabili. I task di ingegneria sono valutati attraverso una valutazione basata sull'esecuzione e multi-metrica. I task aperti sono valutati da un giudice LLM affidabile e sperimentalmente validato, guidato da rubriche gerarchiche e meticolosamente elaborate. I nostri esperimenti rivelano che anche gli agenti più all'avanguardia vacillano su DAComp. Le prestazioni sui task DE sono particolarmente basse, con tassi di successo inferiori al 20%, esponendo un collo di bottiglia critico nell'orchestrazione olistica delle pipeline, non solo nella generazione di codice. I punteggi sui task DA si attestano in media anche al di sotto del 40%, evidenziando profonde carenze nel ragionamento aperto e dimostrando che ingegneria e analisi sono capacità distinte. Diagnosticando chiaramente queste limitazioni, DAComp fornisce un banco di prova rigoroso e realistico per guidare lo sviluppo di agenti di dati autonomi veramente capaci per contesti aziendali. I nostri dati e codice sono disponibili su https://da-comp.github.io.
English
Real-world enterprise data intelligence workflows encompass data engineering that turns raw sources into analytical-ready tables and data analysis that convert those tables into decision-oriented insights. We introduce DAComp, a benchmark of 210 tasks that mirrors these complex workflows. Data engineering (DE) tasks require repository-level engineering on industrial schemas, including designing and building multi-stage SQL pipelines from scratch and evolving existing systems under evolving requirements. Data analysis (DA) tasks pose open-ended business problems that demand strategic planning, exploratory analysis through iterative coding, interpretation of intermediate results, and the synthesis of actionable recommendations. Engineering tasks are scored through execution-based, multi-metric evaluation. Open-ended tasks are assessed by a reliable, experimentally validated LLM-judge, which is guided by hierarchical, meticulously crafted rubrics. Our experiments reveal that even state-of-the-art agents falter on DAComp. Performance on DE tasks is particularly low, with success rates under 20%, exposing a critical bottleneck in holistic pipeline orchestration, not merely code generation. Scores on DA tasks also average below 40%, highlighting profound deficiencies in open-ended reasoning and demonstrating that engineering and analysis are distinct capabilities. By clearly diagnosing these limitations, DAComp provides a rigorous and realistic testbed to drive the development of truly capable autonomous data agents for enterprise settings. Our data and code are available at https://da-comp.github.io
PDF1486December 21, 2025