AgentDS Technischer Bericht: Benchmarking der Zukunft der Mensch-KI-Kollaboration in der domänenspezifischen Datenwissenschaft

Zusammenfassung

Data Science spielt eine entscheidende Rolle bei der Transformation komplexer Daten in umsetzbare Erkenntnisse in zahlreichen Domänen. Jüngste Entwicklungen bei großen Sprachmodellen (LLMs) und KI-Agenten haben den Data-Science-Workflow erheblich automatisiert. Es bleibt jedoch unklar, inwieweit KI-Agenten die Leistung menschlicher Experten bei domänenspezifischen Data-Science-Aufgaben erreichen können und in welchen Aspekten menschliche Expertise weiterhin Vorteile bietet. Wir stellen AgentDS vor, einen Benchmark und Wettbewerb, der entwickelt wurde, um sowohl die Leistung von KI-Agenten als auch die Mensch-KI-Kollaboration in der domänenspezifischen Data Science zu bewerten. AgentDS umfasst 17 Herausforderungen aus sechs Branchen: Handel, Lebensmittelproduktion, Gesundheitswesen, Versicherungen, Fertigung und Privatkundengeschäft von Banken. Wir führten einen offenen Wettbewerb mit 29 Teams und 80 Teilnehmern durch, der einen systematischen Vergleich zwischen Mensch-KI-Kollaborationsansätzen und reinen KI-Baselines ermöglicht. Unsere Ergebnisse zeigen, dass aktuelle KI-Agenten mit domänenspezifischem Denken Schwierigkeiten haben. Reine KI-Baselines schneiden nahe dem Median oder darunter liegend im Vergleich zu den Wettbewerbsteilnehmern ab, während die stärksten Lösungen aus der Mensch-KI-Kollaboration hervorgehen. Diese Ergebnisse stellen die Erzählung einer vollständigen Automatisierung durch KI in Frage und unterstreichen die anhaltende Bedeutung menschlicher Expertise in der Data Science, während sie gleichzeitig Richtungen für die nächste KI-Generation aufzeigen. Besuchen Sie die AgentDS-Website hier: https://agentds.org/ und die Open-Source-Datensätze hier: https://huggingface.co/datasets/lainmn/AgentDS.

English

Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) and artificial intelligence (AI) agents have significantly automated data science workflow. However, it remains unclear to what extent AI agents can match the performance of human experts on domain-specific data science tasks, and in which aspects human expertise continues to provide advantages. We introduce AgentDS, a benchmark and competition designed to evaluate both AI agents and human-AI collaboration performance in domain-specific data science. AgentDS consists of 17 challenges across six industries: commerce, food production, healthcare, insurance, manufacturing, and retail banking. We conducted an open competition involving 29 teams and 80 participants, enabling systematic comparison between human-AI collaborative approaches and AI-only baselines. Our results show that current AI agents struggle with domain-specific reasoning. AI-only baselines perform near or below the median of competition participants, while the strongest solutions arise from human-AI collaboration. These findings challenge the narrative of complete automation by AI and underscore the enduring importance of human expertise in data science, while illuminating directions for the next generation of AI. Visit the AgentDS website here: https://agentds.org/ and open source datasets here: https://huggingface.co/datasets/lainmn/AgentDS .

AgentDS Technischer Bericht: Benchmarking der Zukunft der Mensch-KI-Kollaboration in der domänenspezifischen Datenwissenschaft

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Zusammenfassung

Support