DAComp : Évaluation comparative des agents de données sur l'ensemble du cycle de vie de l'intelligence des données
DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle
December 3, 2025
papers.authors: Fangyu Lei, Jinxiang Meng, Yiming Huang, Junjie Zhao, Yitong Zhang, Jianwen Luo, Xin Zou, Ruiyi Yang, Wenbo Shi, Yan Gao, Shizhu He, Zuo Wang, Qian Liu, Yang Wang, Ke Wang, Jun Zhao, Kang Liu
cs.AI
papers.abstract
Les flux de travail réels d'intelligence décisionnelle en entreprise englobent l'ingénierie des données, qui transforme les sources brutes en tables prêtes pour l'analyse, et l'analyse des données, qui convertit ces tables en informations orientées vers la prise de décision. Nous présentons DAComp, un benchmark de 210 tâches qui reflète ces flux de travail complexes. Les tâches d'ingénierie des données (DE) nécessitent une ingénierie au niveau du référentiel sur des schémas industriels, incluant la conception et la construction de pipelines SQL multi-étapes à partir de zéro, et l'évolution de systèmes existants face à des exigences changeantes. Les tâches d'analyse des données (DA) posent des problèmes métier ouverts exigeant une planification stratégique, une analyse exploratoire par codage itératif, l'interprétation de résultats intermédiaires et la synthèse de recommandations actionnables. Les tâches d'ingénierie sont évaluées via une vérification exécutoire multi-critères. Les tâches ouvertes sont évaluées par un juge IA fiable et expérimentalement validé, guidé par des grilles d'évaluation hiérarchiques et méticuleusement conçues. Nos expériences révèlent que même les agents les plus avancés échouent sur DAComp. Les performances sur les tâches DE sont particulièrement faibles, avec des taux de réussite inférieurs à 20%, exposant un goulot d'étranglement critique dans l'orchestration holistique des pipelines, au-delà de la simple génération de code. Les scores sur les tâches DA atteignent en moyenne moins de 40%, soulignant des lacunes profondes dans le raisonnement ouvert et démontrant que l'ingénierie et l'analyse sont des capacités distinctes. En diagnostiquant clairement ces limites, DAComp fournit un banc d'essai rigoureux et réaliste pour stimuler le développement d'agents autonomes de données véritablement compétents en milieu professionnel. Nos données et notre code sont disponibles à l'adresse https://da-comp.github.io.
English
Real-world enterprise data intelligence workflows encompass data engineering that turns raw sources into analytical-ready tables and data analysis that convert those tables into decision-oriented insights. We introduce DAComp, a benchmark of 210 tasks that mirrors these complex workflows. Data engineering (DE) tasks require repository-level engineering on industrial schemas, including designing and building multi-stage SQL pipelines from scratch and evolving existing systems under evolving requirements. Data analysis (DA) tasks pose open-ended business problems that demand strategic planning, exploratory analysis through iterative coding, interpretation of intermediate results, and the synthesis of actionable recommendations. Engineering tasks are scored through execution-based, multi-metric evaluation. Open-ended tasks are assessed by a reliable, experimentally validated LLM-judge, which is guided by hierarchical, meticulously crafted rubrics. Our experiments reveal that even state-of-the-art agents falter on DAComp. Performance on DE tasks is particularly low, with success rates under 20%, exposing a critical bottleneck in holistic pipeline orchestration, not merely code generation. Scores on DA tasks also average below 40%, highlighting profound deficiencies in open-ended reasoning and demonstrating that engineering and analysis are distinct capabilities. By clearly diagnosing these limitations, DAComp provides a rigorous and realistic testbed to drive the development of truly capable autonomous data agents for enterprise settings. Our data and code are available at https://da-comp.github.io