Relatório Técnico AgentDS: Avaliando o Futuro da Colaboração Humano-IA em Ciência de Dados de Domínio Específico

Resumo

A ciência de dados desempenha um papel fundamental na transformação de dados complexos em insights acionáveis em inúmeros domínios. Os recentes avanços em modelos de linguagem de grande escala (LLMs) e agentes de inteligência artificial (IA) automatizaram significativamente o fluxo de trabalho da ciência de dados. No entanto, ainda não está claro até que ponto os agentes de IA podem igualar o desempenho de especialistas humanos em tarefas de ciência de dados específicas de domínio e em quais aspectos a expertise humana continua a oferecer vantagens. Apresentamos o AgentDS, um benchmark e competição concebidos para avaliar o desempenho de agentes de IA e da colaboração humano-IA em ciência de dados específica de domínio. O AgentDS consiste em 17 desafios abrangendo seis indústrias: comércio, produção de alimentos, saúde, seguros, manufatura e banco de varejo. Realizamos uma competição aberta envolvendo 29 equipas e 80 participantes, permitindo uma comparação sistemática entre abordagens de colaboração humano-IA e baselines exclusivamente de IA. Os nossos resultados mostram que os atuais agentes de IA têm dificuldades com o raciocínio específico de domínio. Os baselines exclusivamente de IA apresentam desempenho próximo ou abaixo da mediana dos participantes da competição, enquanto as soluções mais robustas surgem da colaboração humano-IA. Estas descobertas contestam a narrativa de automação completa pela IA e sublinham a importância duradoura da expertise humana na ciência de dados, ao mesmo tempo que iluminam direções para a próxima geração de IA. Visite o website do AgentDS aqui: https://agentds.org/ e os conjuntos de dados de código aberto aqui: https://huggingface.co/datasets/lainmn/AgentDS.

English

Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) and artificial intelligence (AI) agents have significantly automated data science workflow. However, it remains unclear to what extent AI agents can match the performance of human experts on domain-specific data science tasks, and in which aspects human expertise continues to provide advantages. We introduce AgentDS, a benchmark and competition designed to evaluate both AI agents and human-AI collaboration performance in domain-specific data science. AgentDS consists of 17 challenges across six industries: commerce, food production, healthcare, insurance, manufacturing, and retail banking. We conducted an open competition involving 29 teams and 80 participants, enabling systematic comparison between human-AI collaborative approaches and AI-only baselines. Our results show that current AI agents struggle with domain-specific reasoning. AI-only baselines perform near or below the median of competition participants, while the strongest solutions arise from human-AI collaboration. These findings challenge the narrative of complete automation by AI and underscore the enduring importance of human expertise in data science, while illuminating directions for the next generation of AI. Visit the AgentDS website here: https://agentds.org/ and open source datasets here: https://huggingface.co/datasets/lainmn/AgentDS .

Relatório Técnico AgentDS: Avaliando o Futuro da Colaboração Humano-IA em Ciência de Dados de Domínio Específico

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Resumo

Support