DAComp: Avaliação Comparativa de Agentes de Dados em Todo o Ciclo de Vida da Inteligência de Dados

Resumo

Os fluxos de trabalho reais de inteligência de dados empresariais abrangem a engenharia de dados, que transforma fontes brutas em tabelas preparadas para análise, e a análise de dados, que converte essas tabelas em insights orientados para a decisão. Apresentamos o DAComp, um benchmark de 210 tarefas que espelha esses fluxos de trabalho complexos. As tarefas de engenharia de dados (ED) exigem engenharia em nível de repositório sobre esquemas industriais, incluindo o projeto e a construção de pipelines SQL multiestágio do zero e a evolução de sistemas existentes sob requisitos em mudança. As tarefas de análise de dados (AD) colocam problemas de negócio abertos que demandam planejamento estratégico, análise exploratória por meio de codificação iterativa, interpretação de resultados intermediários e a síntese de recomendações acionáveis. As tarefas de engenharia são pontuadas por meio de avaliação baseada em execução e com múltiplas métricas. As tarefas abertas são avaliadas por um juiz baseado em LLM confiável e experimentalmente validado, que é guiado por rubricas hierárquicas e meticulosamente elaboradas. Nossos experimentos revelam que mesmo os agentes mais avançados tropeçam no DAComp. O desempenho nas tarefas de ED é particularmente baixo, com taxas de sucesso abaixo de 20%, expondo um gargalo crítico na orquestração holística de pipelines, e não meramente na geração de código. As pontuações nas tarefas de AD também ficam em média abaixo de 40%, destacando deficiências profundas no raciocínio aberto e demonstrando que engenharia e análise são capacidades distintas. Ao diagnosticar claramente essas limitações, o DAComp fornece um ambiente de teste rigoroso e realista para impulsionar o desenvolvimento de agentes de dados autônomos verdadeiramente capazes para ambientes empresariais. Nossos dados e código estão disponíveis em https://da-comp.github.io.

English

Real-world enterprise data intelligence workflows encompass data engineering that turns raw sources into analytical-ready tables and data analysis that convert those tables into decision-oriented insights. We introduce DAComp, a benchmark of 210 tasks that mirrors these complex workflows. Data engineering (DE) tasks require repository-level engineering on industrial schemas, including designing and building multi-stage SQL pipelines from scratch and evolving existing systems under evolving requirements. Data analysis (DA) tasks pose open-ended business problems that demand strategic planning, exploratory analysis through iterative coding, interpretation of intermediate results, and the synthesis of actionable recommendations. Engineering tasks are scored through execution-based, multi-metric evaluation. Open-ended tasks are assessed by a reliable, experimentally validated LLM-judge, which is guided by hierarchical, meticulously crafted rubrics. Our experiments reveal that even state-of-the-art agents falter on DAComp. Performance on DE tasks is particularly low, with success rates under 20%, exposing a critical bottleneck in holistic pipeline orchestration, not merely code generation. Scores on DA tasks also average below 40%, highlighting profound deficiencies in open-ended reasoning and demonstrating that engineering and analysis are distinct capabilities. By clearly diagnosing these limitations, DAComp provides a rigorous and realistic testbed to drive the development of truly capable autonomous data agents for enterprise settings. Our data and code are available at https://da-comp.github.io

DAComp: Avaliação Comparativa de Agentes de Dados em Todo o Ciclo de Vida da Inteligência de Dados

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

Resumo

Support