AgentDSテクニカルレポート:ドメイン特化型データサイエンスにおける人間とAIの協働の未来をベンチマークする
AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science
March 19, 2026
著者: An Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding
cs.AI
要旨
データサイエンスは、複雑なデータを様々な領域において実践的な洞察へと変換する上で極めて重要な役割を果たしている。大規模言語モデル(LLM)や人工知能(AI)エージェントの最近の進展により、データサイエンスのワークフローは大幅に自動化されてきた。しかし、特定領域のデータサイエンスタスクにおいて、AIエージェントが人間の専門家のパフォーマンスにどこまで迫れるのか、またどの側面で引き続き人間の専門性が優位性を発揮するのかは明らかになっていない。本論文では、特定領域のデータサイエンスにおけるAIエージェントおよび人間-AI協働のパフォーマンスを評価するためのベンチマーク兼競技会であるAgentDSを紹介する。AgentDSは、商業、食品生産、医療、保険、製造、小売銀行の6つの産業分野にわたる17の課題で構成されている。29チーム、80名の参加者による公開競技会を実施し、人間-AI協働アプローチとAIのみのベースラインとの体系的な比較を可能にした。結果は、現在のAIエージェントが領域特有の推論に苦戦することを示している。AIのみのベースラインは、参加者の中央値に近いか、それを下回るパフォーマンスであったのに対し、最も優れた解決策は人間-AI協働から生まれた。これらの知見は、AIによる完全な自動化という見方に疑問を投げかけ、データサイエンスにおける人間の専門知識の持続的な重要性を強調するとともに、次世代AIの進むべき方向性を示唆するものである。AgentDSのウェブサイト(https://agentds.org/)およびオープンソースデータセット(https://huggingface.co/datasets/lainmn/AgentDS)を参照されたい。
English
Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) and artificial intelligence (AI) agents have significantly automated data science workflow. However, it remains unclear to what extent AI agents can match the performance of human experts on domain-specific data science tasks, and in which aspects human expertise continues to provide advantages. We introduce AgentDS, a benchmark and competition designed to evaluate both AI agents and human-AI collaboration performance in domain-specific data science. AgentDS consists of 17 challenges across six industries: commerce, food production, healthcare, insurance, manufacturing, and retail banking. We conducted an open competition involving 29 teams and 80 participants, enabling systematic comparison between human-AI collaborative approaches and AI-only baselines. Our results show that current AI agents struggle with domain-specific reasoning. AI-only baselines perform near or below the median of competition participants, while the strongest solutions arise from human-AI collaboration. These findings challenge the narrative of complete automation by AI and underscore the enduring importance of human expertise in data science, while illuminating directions for the next generation of AI. Visit the AgentDS website here: https://agentds.org/ and open source datasets here: https://huggingface.co/datasets/lainmn/AgentDS .