Технический отчет AgentDS: Бенчмаркинг будущего взаимодействия человека и ИИ в предметно-ориентированной науке о данных

Аннотация

Наука о данных играет ключевую роль в преобразовании сложных данных в практические выводы в различных областях. Последние достижения в области больших языковых моделей (LLM) и агентов искусственного интеллекта (ИИ) значительно автоматизировали рабочий процесс в data science. Однако до сих пор неясно, в какой степени ИИ-агенты могут соответствовать производительности экспертов-людей в предметно-ориентированных задачах науки о данных и в каких аспектах человеческая экспертиза продолжает сохранять преимущества. Мы представляем AgentDS — эталонный тест и конкурс, предназначенные для оценки производительности как ИИ-агентов, так и коллаборации человека и ИИ в предметно-ориентированной data science. AgentDS включает 17 задач из шести отраслей: коммерция, производство продуктов питания, здравоохранение, страхование, производство и розничный банкинг. Мы провели открытый конкурс с участием 29 команд и 80 участников, что позволило провести систематическое сравнение подходов к совместной работе человека и ИИ с базовыми уровнями, использующими только ИИ. Наши результаты показывают, что современные ИИ-агенты испытывают трудности с предметно-ориентированными рассуждениями. Базовые уровни на основе только ИИ показывают результаты близкие к медианным или ниже результатов участников конкурса, в то время как наиболее сильные решения возникают в результате коллаборации человека и ИИ. Эти результаты оспаривают нарратив о полной автоматизации с помощью ИИ и подчеркивают непреходящую важность человеческой экспертизы в науке о данных, одновременно указывая направления для развития следующего поколения ИИ. Посетите сайт AgentDS здесь: https://agentds.org/ и наборы данных с открытым исходным кодом здесь: https://huggingface.co/datasets/lainmn/AgentDS.

English

Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) and artificial intelligence (AI) agents have significantly automated data science workflow. However, it remains unclear to what extent AI agents can match the performance of human experts on domain-specific data science tasks, and in which aspects human expertise continues to provide advantages. We introduce AgentDS, a benchmark and competition designed to evaluate both AI agents and human-AI collaboration performance in domain-specific data science. AgentDS consists of 17 challenges across six industries: commerce, food production, healthcare, insurance, manufacturing, and retail banking. We conducted an open competition involving 29 teams and 80 participants, enabling systematic comparison between human-AI collaborative approaches and AI-only baselines. Our results show that current AI agents struggle with domain-specific reasoning. AI-only baselines perform near or below the median of competition participants, while the strongest solutions arise from human-AI collaboration. These findings challenge the narrative of complete automation by AI and underscore the enduring importance of human expertise in data science, while illuminating directions for the next generation of AI. Visit the AgentDS website here: https://agentds.org/ and open source datasets here: https://huggingface.co/datasets/lainmn/AgentDS .

Технический отчет AgentDS: Бенчмаркинг будущего взаимодействия человека и ИИ в предметно-ориентированной науке о данных

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Аннотация

Support