ChatPaper.aiChatPaper

AgentDS 기술 보고서: 분야 특화 데이터 과학에서 인간-AI 협업의 미래 벤치마킹

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

March 19, 2026
저자: An Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding
cs.AI

초록

데이터 과학은 다양한 분야에서 복잡한 데이터를 실행 가능한 통찰력으로 전환하는 데 중요한 역할을 합니다. 대규모 언어 모델(LLM)과 인공지능(AI) 에이전트의 최근 발전은 데이터 과학 워크플로우를 크게 자동화했습니다. 그러나 AI 에이전트가 특정 분야 데이터 과학 과제에서 인간 전문가의 성과를 어느 정도 따라잡을 수 있는지, 그리고 어떤 측면에서 인간 전문성이 여전히 우위를 제공하는지는 불분명합니다. 본 연구는 특정 분야 데이터 과학에서 AI 에이전트와 인간-AI 협업 성과를 모두 평가하기 위해 설계된 벤치마크이자 경쟁인 AgentDS를 소개합니다. AgentDS는 상업, 식품 생산, 의료, 보험, 제조, 소매 금융 등 6개 산업 분야에 걸친 17개의 과제로 구성됩니다. 우리는 29개 팀과 80명의 참가자가 참여한 공개 경쟁을 진행하여 인간-AI 협업 접근법과 AI 단독 기준선을 체계적으로 비교했습니다. 연구 결과에 따르면, 현재의 AI 에이전트는 특정 분야 추론에 어려움을 겪는 것으로 나타났습니다. AI 단독 기준선은 경쟁 참가자들의 중간값에 근접하거나 그 이하의 성능을 보인 반면, 가장 강력한 솔루션은 인간-AI 협업에서 발생했습니다. 이러한 결과는 AI에 의한 완전한 자동화 담론에 의문을 제기하며 데이터 과학에서 인간 전문성의 지속적인 중요성을 강조하고, 다음 세대 AI를 위한 방향을 제시합니다. AgentDS 웹사이트(https://agentds.org/) 및 오픈 소스 데이터 세트(https://huggingface.co/datasets/lainmn/AgentDS)를 방문해 주시기 바랍니다.
English
Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) and artificial intelligence (AI) agents have significantly automated data science workflow. However, it remains unclear to what extent AI agents can match the performance of human experts on domain-specific data science tasks, and in which aspects human expertise continues to provide advantages. We introduce AgentDS, a benchmark and competition designed to evaluate both AI agents and human-AI collaboration performance in domain-specific data science. AgentDS consists of 17 challenges across six industries: commerce, food production, healthcare, insurance, manufacturing, and retail banking. We conducted an open competition involving 29 teams and 80 participants, enabling systematic comparison between human-AI collaborative approaches and AI-only baselines. Our results show that current AI agents struggle with domain-specific reasoning. AI-only baselines perform near or below the median of competition participants, while the strongest solutions arise from human-AI collaboration. These findings challenge the narrative of complete automation by AI and underscore the enduring importance of human expertise in data science, while illuminating directions for the next generation of AI. Visit the AgentDS website here: https://agentds.org/ and open source datasets here: https://huggingface.co/datasets/lainmn/AgentDS .
PDF41March 24, 2026