ChatPaper.aiChatPaper

DAComp: Evaluación Comparativa de Agentes de Datos a lo Largo del Ciclo de Vida Completo de la Inteligencia de Datos

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

December 3, 2025
Autores: Fangyu Lei, Jinxiang Meng, Yiming Huang, Junjie Zhao, Yitong Zhang, Jianwen Luo, Xin Zou, Ruiyi Yang, Wenbo Shi, Yan Gao, Shizhu He, Zuo Wang, Qian Liu, Yang Wang, Ke Wang, Jun Zhao, Kang Liu
cs.AI

Resumen

Los flujos de trabajo reales de inteligencia de datos empresariales abarcan la ingeniería de datos, que transforma las fuentes brutas en tablas listas para el análisis, y el análisis de datos, que convierte esas tablas en información orientada a la toma de decisiones. Presentamos DAComp, un benchmark de 210 tareas que refleja estos flujos de trabajo complejos. Las tareas de ingeniería de datos (DE) requieren ingeniería a nivel de repositorio sobre esquemas industriales, incluyendo el diseño y construcción de pipelines SQL multi-etapa desde cero y la evolución de sistemas existentes bajo requisitos cambiantes. Las tareas de análisis de datos (DA) plantean problemas empresariales abiertos que exigen planificación estratégica, análisis exploratorio mediante codificación iterativa, interpretación de resultados intermedios y la síntesis de recomendaciones accionables. Las tareas de ingeniería se califican mediante una evaluación basada en ejecución y múltiples métricas. Las tareas abiertas son evaluadas por un juez basado en LLM, confiable y validado experimentalmente, guiado por rúbricas jerárquicas y meticulosamente elaboradas. Nuestros experimentos revelan que incluso los agentes más avanzados fracasan en DAComp. El rendimiento en las tareas DE es particularmente bajo, con tasas de éxito inferiores al 20%, exponiendo un cuello de botella crítico en la orquestación holística de pipelines, no meramente en la generación de código. Las puntuaciones en las tareas DA también promedian menos del 40%, destacando deficiencias profundas en el razonamiento abierto y demostrando que la ingeniería y el análisis son capacidades distintas. Al diagnosticar claramente estas limitaciones, DAComp proporciona un banco de pruebas riguroso y realista para impulsar el desarrollo de agentes autónomos de datos verdaderamente capaces para entornos empresariales. Nuestros datos y código están disponibles en https://da-comp.github.io.
English
Real-world enterprise data intelligence workflows encompass data engineering that turns raw sources into analytical-ready tables and data analysis that convert those tables into decision-oriented insights. We introduce DAComp, a benchmark of 210 tasks that mirrors these complex workflows. Data engineering (DE) tasks require repository-level engineering on industrial schemas, including designing and building multi-stage SQL pipelines from scratch and evolving existing systems under evolving requirements. Data analysis (DA) tasks pose open-ended business problems that demand strategic planning, exploratory analysis through iterative coding, interpretation of intermediate results, and the synthesis of actionable recommendations. Engineering tasks are scored through execution-based, multi-metric evaluation. Open-ended tasks are assessed by a reliable, experimentally validated LLM-judge, which is guided by hierarchical, meticulously crafted rubrics. Our experiments reveal that even state-of-the-art agents falter on DAComp. Performance on DE tasks is particularly low, with success rates under 20%, exposing a critical bottleneck in holistic pipeline orchestration, not merely code generation. Scores on DA tasks also average below 40%, highlighting profound deficiencies in open-ended reasoning and demonstrating that engineering and analysis are distinct capabilities. By clearly diagnosing these limitations, DAComp provides a rigorous and realistic testbed to drive the development of truly capable autonomous data agents for enterprise settings. Our data and code are available at https://da-comp.github.io
PDF1202December 6, 2025