Rapporto Tecnico AgentDS: Valutazione Comparativa del Futuro della Collaborazione Uomo-IA nell'Data Science Settoriale

Abstract

La scienza dei dati svolge un ruolo cruciale nel trasformare dati complessi in insight azionabili in numerosi domini. I recenti sviluppi nei grandi modelli linguistici (LLM) e negli agenti di intelligenza artificiale (IA) hanno automatizzato significativamente il flusso di lavoro della scienza dei dati. Tuttavia, rimane poco chiaro in che misura gli agenti di IA possano eguagliare le prestazioni di esperti umani in compiti di data science specifici per dominio, e in quali aspetti l'esperienza umana continui a fornire vantaggi. Presentiamo AgentDS, un benchmark e una competizione progettati per valutare le prestazioni sia degli agenti di IA che della collaborazione uomo-IA nella scienza dei dati domain-specific. AgentDS consiste in 17 sfide relative a sei industrie: commercio, produzione alimentare, sanità, assicurazioni, manifatturiero e banche al dettaglio. Abbiamo condotto una competizione aperta che ha coinvolto 29 team e 80 partecipanti, consentendo un confronto sistematico tra approcci di collaborazione uomo-IA e baseline esclusivamente basate sull'IA. I nostri risultati mostrano che gli attuali agenti di IA faticano nel ragionamento domain-specific. Le baseline esclusivamente IA performano vicino o al di sotto della mediana dei partecipanti alla competizione, mentre le soluzioni più robuste emergono dalla collaborazione uomo-IA. Questi risultati sfidano la narrativa dell'automazione completa da parte dell'IA e sottolineano l'importanza duratura dell'esperienza umana nella scienza dei dati, illuminando al contempo le direzioni per la prossima generazione di IA. Visita il sito web di AgentDS qui: https://agentds.org/ e i dataset open source qui: https://huggingface.co/datasets/lainmn/AgentDS.

English

Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) and artificial intelligence (AI) agents have significantly automated data science workflow. However, it remains unclear to what extent AI agents can match the performance of human experts on domain-specific data science tasks, and in which aspects human expertise continues to provide advantages. We introduce AgentDS, a benchmark and competition designed to evaluate both AI agents and human-AI collaboration performance in domain-specific data science. AgentDS consists of 17 challenges across six industries: commerce, food production, healthcare, insurance, manufacturing, and retail banking. We conducted an open competition involving 29 teams and 80 participants, enabling systematic comparison between human-AI collaborative approaches and AI-only baselines. Our results show that current AI agents struggle with domain-specific reasoning. AI-only baselines perform near or below the median of competition participants, while the strongest solutions arise from human-AI collaboration. These findings challenge the narrative of complete automation by AI and underscore the enduring importance of human expertise in data science, while illuminating directions for the next generation of AI. Visit the AgentDS website here: https://agentds.org/ and open source datasets here: https://huggingface.co/datasets/lainmn/AgentDS .

Rapporto Tecnico AgentDS: Valutazione Comparativa del Futuro della Collaborazione Uomo-IA nell'Data Science Settoriale

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Abstract

Support