ChatPaper.aiChatPaper

DAComp: 전체 데이터 인텔리전스 라이프사이클 기반 데이터 에이전트 벤치마킹

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

December 3, 2025
저자: Fangyu Lei, Jinxiang Meng, Yiming Huang, Junjie Zhao, Yitong Zhang, Jianwen Luo, Xin Zou, Ruiyi Yang, Wenbo Shi, Yan Gao, Shizhu He, Zuo Wang, Qian Liu, Yang Wang, Ke Wang, Jun Zhao, Kang Liu
cs.AI

초록

실전 기업 데이터 인텔리전스 워크플로우는 원천 데이터를 분석 가능한 테이블로 전환하는 데이터 엔지니어링과 이러한 테이블을 의사결정 중심의 통찰력으로 변환하는 데이터 분석을 포괄합니다. 본 연구는 이러한 복잡한 워크플로우를 반영한 210개 과업으로 구성된 벤치마크인 DAComp를 소개합니다. 데이터 엔지니어링 과업은 산업 수준의 스키마에 대한 저장소 수준의 엔지니어링을 요구하며, 여기에는 처음부터 다단계 SQL 파이프라인을 설계 및 구축하고 변화하는 요구사항 아래 기존 시스템을 발전시키는 작업이 포함됩니다. 데이터 분석 과업은 전략적 계획 수립, 반복적 코딩을 통한 탐색적 분석, 중간 결과 해석, 실행 가능한 권고안 종합을 요구하는 개방형 비즈니스 문제를 제시합니다. 엔지니어링 과업은 실행 기반의 다중 지표 평가를 통해 점수가 매겨집니다. 개방형 과업은 계층적이고 면밀히 설계된 채점 기준표에 따라 안정적이며 실험적으로 검증된 LLM 평가자에 의해 평가됩니다. 우리의 실험 결과에 따르면, 최첨단 에이전트들도 DAComp에서 어려움을 겪는 것으로 나타났습니다. 특히 데이터 엔지니어링 과업의 성능은 20% 미만의 성공률로 매우 낮아, 단순한 코드 생성이 아닌 전체적인 파이프라인 오케스트레이션에 심각한 병목 현상이 있음을 드러냈습니다. 데이터 분석 과업의 점수도 평균 40% 미만으로, 개방형 추론 능력에 심각한 결함이 있음을 강조하며 엔지니어링과 분석이 별개의 역량임을 입증했습니다. 이러한 한계를 명확히 진단함으로써, DAComp는 기업 환경을 위한 진정한 능력을 갖춘 자율 데이터 에이전트의 개발을 촉진하는 엄격하고 현실적인 테스트베드를 제공합니다. 우리의 데이터와 코드는 https://da-comp.github.io에서 확인할 수 있습니다.
English
Real-world enterprise data intelligence workflows encompass data engineering that turns raw sources into analytical-ready tables and data analysis that convert those tables into decision-oriented insights. We introduce DAComp, a benchmark of 210 tasks that mirrors these complex workflows. Data engineering (DE) tasks require repository-level engineering on industrial schemas, including designing and building multi-stage SQL pipelines from scratch and evolving existing systems under evolving requirements. Data analysis (DA) tasks pose open-ended business problems that demand strategic planning, exploratory analysis through iterative coding, interpretation of intermediate results, and the synthesis of actionable recommendations. Engineering tasks are scored through execution-based, multi-metric evaluation. Open-ended tasks are assessed by a reliable, experimentally validated LLM-judge, which is guided by hierarchical, meticulously crafted rubrics. Our experiments reveal that even state-of-the-art agents falter on DAComp. Performance on DE tasks is particularly low, with success rates under 20%, exposing a critical bottleneck in holistic pipeline orchestration, not merely code generation. Scores on DA tasks also average below 40%, highlighting profound deficiencies in open-ended reasoning and demonstrating that engineering and analysis are distinct capabilities. By clearly diagnosing these limitations, DAComp provides a rigorous and realistic testbed to drive the development of truly capable autonomous data agents for enterprise settings. Our data and code are available at https://da-comp.github.io
PDF1202December 6, 2025