ChatPaper.aiChatPaper

DAComp: Сравнительный анализ агентов данных на протяжении всего жизненного цикла интеллектуальной обработки данных

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

December 3, 2025
Авторы: Fangyu Lei, Jinxiang Meng, Yiming Huang, Junjie Zhao, Yitong Zhang, Jianwen Luo, Xin Zou, Ruiyi Yang, Wenbo Shi, Yan Gao, Shizhu He, Zuo Wang, Qian Liu, Yang Wang, Ke Wang, Jun Zhao, Kang Liu
cs.AI

Аннотация

Реальные рабочие процессы обработки корпоративных данных включают инжиниринг данных, который преобразует исходные сырые данные в таблицы, готовые к анализу, и анализ данных, который превращает эти таблицы в инсайты для принятия решений. Мы представляем DAComp — набор из 210 задач, который отражает эти сложные процессы. Задачи по инжинирингу данных требуют инжиниринга на уровне репозитория с промышленными схемами, включая проектирование и построение многоэтапных SQL-пайплайнов с нуля, а также модификацию существующих систем в условиях меняющихся требований. Задачи по анализу данных формулируют открытые бизнес-проблемы, требующие стратегического планирования, исследовательского анализа посредством итеративного кодирования, интерпретации промежуточных результатов и синтеза практических рекомендаций. Инжиниринговые задачи оцениваются с помощью исполняемой, многокритериальной оценки. Открытые задачи оцениваются надежным, экспериментально проверенным LLM-арбитром, руководствующимся иерархическими, тщательно разработанными критериями. Наши эксперименты показывают, что даже передовые агенты испытывают трудности с DAComp. Производительность на задачах по инжинирингу данных особенно низка, с уровнем успеха ниже 20%, что выявляет критическое узкое место в области оркестрации целостных пайплайнов, а не просто генерации кода. Результаты по задачам анализа данных также в среднем ниже 40%, что подчеркивает серьезные недостатки в открытом рассуждении и демонстрирует, что инжиниринг и анализ — это различные компетенции. Четко диагностируя эти ограничения, DAComp предоставляет строгий и реалистичный полигон для стимулирования разработки по-настоящему эффективных автономных агентов для работы с данными в корпоративной среде. Наши данные и код доступны по адресу https://da-comp.github.io.
English
Real-world enterprise data intelligence workflows encompass data engineering that turns raw sources into analytical-ready tables and data analysis that convert those tables into decision-oriented insights. We introduce DAComp, a benchmark of 210 tasks that mirrors these complex workflows. Data engineering (DE) tasks require repository-level engineering on industrial schemas, including designing and building multi-stage SQL pipelines from scratch and evolving existing systems under evolving requirements. Data analysis (DA) tasks pose open-ended business problems that demand strategic planning, exploratory analysis through iterative coding, interpretation of intermediate results, and the synthesis of actionable recommendations. Engineering tasks are scored through execution-based, multi-metric evaluation. Open-ended tasks are assessed by a reliable, experimentally validated LLM-judge, which is guided by hierarchical, meticulously crafted rubrics. Our experiments reveal that even state-of-the-art agents falter on DAComp. Performance on DE tasks is particularly low, with success rates under 20%, exposing a critical bottleneck in holistic pipeline orchestration, not merely code generation. Scores on DA tasks also average below 40%, highlighting profound deficiencies in open-ended reasoning and demonstrating that engineering and analysis are distinct capabilities. By clearly diagnosing these limitations, DAComp provides a rigorous and realistic testbed to drive the development of truly capable autonomous data agents for enterprise settings. Our data and code are available at https://da-comp.github.io
PDF1202December 6, 2025