Informe Técnico de AgentDS: Evaluación del Futuro de la Colaboración Humano-IA en Ciencia de Datos de Dominio Específico

Resumen

La ciencia de datos desempeña un papel fundamental en la transformación de datos complejos en información procesable en numerosos dominios. Los recientes avances en modelos de lenguaje extenso (LLM) y agentes de inteligencia artificial (IA) han automatizado significativamente el flujo de trabajo de la ciencia de datos. Sin embargo, aún no está claro hasta qué punto los agentes de IA pueden igualar el rendimiento de los expertos humanos en tareas de ciencia de datos específicas del dominio, y en qué aspectos la experiencia humana continúa ofreciendo ventajas. Presentamos AgentDS, un punto de referencia y competencia diseñado para evaluar tanto el rendimiento de los agentes de IA como el de la colaboración humano-IA en ciencia de datos específica del dominio. AgentDS consta de 17 desafíos en seis industrias: comercio, producción alimentaria, atención sanitaria, seguros, manufactura y banca minorista. Realizamos una competencia abierta con 29 equipos y 80 participantes, permitiendo una comparación sistemática entre enfoques de colaboración humano-IA y líneas base exclusivas de IA. Nuestros resultados muestran que los agentes de IA actuales tienen dificultades con el razonamiento específico del dominio. Las líneas base exclusivas de IA se desempeñan cerca o por debajo de la mediana de los participantes de la competencia, mientras que las soluciones más sólidas surgen de la colaboración humano-IA. Estos hallazgos cuestionan la narrativa de la automatización completa por parte de la IA y subrayan la importancia perdurable de la experiencia humana en la ciencia de datos, al tiempo que iluminan direcciones para la próxima generación de IA. Visite el sitio web de AgentDS aquí: https://agentds.org/ y los conjuntos de datos de código abierto aquí: https://huggingface.co/datasets/lainmn/AgentDS.

English

Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) and artificial intelligence (AI) agents have significantly automated data science workflow. However, it remains unclear to what extent AI agents can match the performance of human experts on domain-specific data science tasks, and in which aspects human expertise continues to provide advantages. We introduce AgentDS, a benchmark and competition designed to evaluate both AI agents and human-AI collaboration performance in domain-specific data science. AgentDS consists of 17 challenges across six industries: commerce, food production, healthcare, insurance, manufacturing, and retail banking. We conducted an open competition involving 29 teams and 80 participants, enabling systematic comparison between human-AI collaborative approaches and AI-only baselines. Our results show that current AI agents struggle with domain-specific reasoning. AI-only baselines perform near or below the median of competition participants, while the strongest solutions arise from human-AI collaboration. These findings challenge the narrative of complete automation by AI and underscore the enduring importance of human expertise in data science, while illuminating directions for the next generation of AI. Visit the AgentDS website here: https://agentds.org/ and open source datasets here: https://huggingface.co/datasets/lainmn/AgentDS .

Informe Técnico de AgentDS: Evaluación del Futuro de la Colaboración Humano-IA en Ciencia de Datos de Dominio Específico

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Resumen

Support