AgentDS Technisch Rapport: Het Benchmarken van de Toekomst van Mens-AI-Samenwerking in Domeinspecifieke Data Science

Samenvatting

Data science speelt een cruciale rol bij het omzetten van complexe data in bruikbare inzichten in tal van domeinen. Recente ontwikkelingen in grote taalmmodellen (LLM's) en kunstmatige-intelligentiegents (AI-agents) hebben de data science-workflow aanzienlijk geautomatiseerd. Het blijft echter onduidelijk in hoeverre AI-agents de prestaties van menselijke experts kunnen evenaren op domeinspecifieke data science-taken, en op welke aspecten menselijke expertise voordelen blijft bieden. Wij introduceren AgentDS, een benchmark en competitie die is ontworpen om zowel de prestaties van AI-agents als van mens-AI-samenwerking in domeinspecifieke data science te evalueren. AgentDS bestaat uit 17 uitdagingen verspreid over zes industrieën: handel, voedselproductie, gezondheidszorg, verzekeringen, productie en retailbankieren. Wij organiseerden een open competitie met 29 teams en 80 deelnemers, waardoor een systematische vergelijking mogelijk werd tussen mens-AI-samenwerkingsaanpakken en AI-only-basislijnen. Onze resultaten tonen aan dat huidige AI-agents moeite hebben met domeinspecifiek redeneren. De AI-only-basislijnen presteren op of onder het mediane niveau van de deelnemers, terwijl de sterkste oplossingen voortkomen uit mens-AI-samenwerking. Deze bevindingen dagen het narratief van volledige automatisering door AI uit en benadrukken het blijvende belang van menselijke expertise in data science, terwijl ze richting wijzen voor de volgende generatie AI. Bezoek de AgentDS-website hier: https://agentds.org/ en de open source datasets hier: https://huggingface.co/datasets/lainmn/AgentDS.

English

Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) and artificial intelligence (AI) agents have significantly automated data science workflow. However, it remains unclear to what extent AI agents can match the performance of human experts on domain-specific data science tasks, and in which aspects human expertise continues to provide advantages. We introduce AgentDS, a benchmark and competition designed to evaluate both AI agents and human-AI collaboration performance in domain-specific data science. AgentDS consists of 17 challenges across six industries: commerce, food production, healthcare, insurance, manufacturing, and retail banking. We conducted an open competition involving 29 teams and 80 participants, enabling systematic comparison between human-AI collaborative approaches and AI-only baselines. Our results show that current AI agents struggle with domain-specific reasoning. AI-only baselines perform near or below the median of competition participants, while the strongest solutions arise from human-AI collaboration. These findings challenge the narrative of complete automation by AI and underscore the enduring importance of human expertise in data science, while illuminating directions for the next generation of AI. Visit the AgentDS website here: https://agentds.org/ and open source datasets here: https://huggingface.co/datasets/lainmn/AgentDS .

AgentDS Technisch Rapport: Het Benchmarken van de Toekomst van Mens-AI-Samenwerking in Domeinspecifieke Data Science

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Samenvatting

Support