Rapport Technique AgentDS : Évaluer l'Avenir de la Collaboration Humaine-IA en Science des Données Domaine-Spécifique

Résumé

La science des données joue un rôle essentiel dans la transformation de données complexes en informations exploitables à travers de nombreux domaines. Les récents développements des grands modèles de langage (LLM) et des agents d'intelligence artificielle (IA) ont considérablement automatisé le flux de travail en science des données. Cependant, on ignore encore dans quelle mesure les agents d'IA peuvent égaler la performance des experts humains sur des tâches de science des données spécifiques à un domaine, et dans quels aspects l'expertise humaine continue d'offrir des avantages. Nous présentons AgentDS, un benchmark et une compétition conçus pour évaluer les performances des agents d'IA ainsi que la collaboration humain-IA dans le cadre de la science des données domain-spécifique. AgentDS comprend 17 défis répartis dans six secteurs industriels : commerce, production alimentaire, santé, assurance, fabrication et banque de détail. Nous avons organisé une compétition ouverte impliquant 29 équipes et 80 participants, permettant une comparaison systématique entre les approches de collaboration humain-IA et les bases de référence reposant uniquement sur l'IA. Nos résultats montrent que les agents d'IA actuels éprouvent des difficultés avec le raisonnement domain-spécifique. Les bases de référence exclusivement basées sur l'IA se situent près ou en dessous de la médiane des participants à la compétition, tandis que les solutions les plus performantes émergent de la collaboration humain-IA. Ces résultats remettent en question le récit d'une automatisation complète par l'IA et soulignent l'importance persistante de l'expertise humaine en science des données, tout en éclairant les orientations pour la prochaine génération d'IA. Visitez le site web d'AgentDS ici : https://agentds.org/ et les jeux de données open source ici : https://huggingface.co/datasets/lainmn/AgentDS.

English

Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) and artificial intelligence (AI) agents have significantly automated data science workflow. However, it remains unclear to what extent AI agents can match the performance of human experts on domain-specific data science tasks, and in which aspects human expertise continues to provide advantages. We introduce AgentDS, a benchmark and competition designed to evaluate both AI agents and human-AI collaboration performance in domain-specific data science. AgentDS consists of 17 challenges across six industries: commerce, food production, healthcare, insurance, manufacturing, and retail banking. We conducted an open competition involving 29 teams and 80 participants, enabling systematic comparison between human-AI collaborative approaches and AI-only baselines. Our results show that current AI agents struggle with domain-specific reasoning. AI-only baselines perform near or below the median of competition participants, while the strongest solutions arise from human-AI collaboration. These findings challenge the narrative of complete automation by AI and underscore the enduring importance of human expertise in data science, while illuminating directions for the next generation of AI. Visit the AgentDS website here: https://agentds.org/ and open source datasets here: https://huggingface.co/datasets/lainmn/AgentDS .

Rapport Technique AgentDS : Évaluer l'Avenir de la Collaboration Humaine-IA en Science des Données Domaine-Spécifique

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Résumé

Support