ChatPaper.aiChatPaper

DSAEval: Bewertung von Data-Science-Agenten anhand eines breiten Spektrums realer Data-Science-Probleme

DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems

January 20, 2026
papers.authors: Maojun Sun, Yifei Xie, Yue Wu, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang
cs.AI

papers.abstract

Aktuelle datenwissenschaftliche Agenten auf Basis von Large Language Models (LLMs) zielen darauf ab, datenwissenschaftliche Aufgaben – von der Datenanalyse bis hin zu Deep Learning – zu automatisieren. Die offene Natur realer datenwissenschaftlicher Probleme, die oft mehrere Taxonomien umfassen und keine Standardlösungen haben, stellt jedoch eine erhebliche Herausforderung für die Evaluation dar. Um dies zu adressieren, stellen wir DSAEval vor, einen Benchmark, der 641 reale datenwissenschaftliche Probleme basierend auf 285 diversen Datensätzen umfasst und sowohl strukturierte als auch unstrukturierte Daten (z. B. aus den Bereichen Vision und Text) abdeckt. DSAEval zeichnet sich durch drei besondere Merkmale aus: (1) Multimodale Umgebungswahrnehmung, die es Agenten ermöglicht, Beobachtungen aus mehreren Modalitäten wie Text und Vision zu interpretieren; (2) Multi-Query-Interaktionen, die die iterative und kumulative Natur realer datenwissenschaftlicher Projekte widerspiegeln; und (3) Multidimensionale Evaluation, die eine ganzheitliche Bewertung über Reasoning, Code und Ergebnisse hinweg bietet. Wir evaluieren systematisch 11 fortgeschrittene agentenbasierte LLMs mit DSAEval. Unsere Ergebnisse zeigen, dass Claude-Sonnet-4.5 die insgesamt stärkste Leistung erzielt, GPT-5.2 am effizientesten und MiMo-V2-Flash das beste Kosten-Nutzen-Verhältnis aufweist. Wir zeigen weiter, dass multimodale Wahrnehmung die Leistung bei visuellen Aufgaben konsistent verbessert, mit Steigerungen zwischen 2,04 % und 11,30 %. Insgesamt schneiden aktuelle datenwissenschaftliche Agenten bei strukturierten Daten und routinemäßigen Datenanalyse-Workflows gut ab, es bestehen jedoch erhebliche Herausforderungen im Bereich unstrukturierter Daten. Abschließend liefern wir kritische Einblicke und skizzieren zukünftige Forschungsrichtungen zur Weiterentwicklung datenwissenschaftlicher Agenten.
English
Recent LLM-based data agents aim to automate data science tasks ranging from data analysis to deep learning. However, the open-ended nature of real-world data science problems, which often span multiple taxonomies and lack standard answers, poses a significant challenge for evaluation. To address this, we introduce DSAEval, a benchmark comprising 641 real-world data science problems grounded in 285 diverse datasets, covering both structured and unstructured data (e.g., vision and text). DSAEval incorporates three distinctive features: (1) Multimodal Environment Perception, which enables agents to interpret observations from multiple modalities including text and vision; (2) Multi-Query Interactions, which mirror the iterative and cumulative nature of real-world data science projects; and (3) Multi-Dimensional Evaluation, which provides a holistic assessment across reasoning, code, and results. We systematically evaluate 11 advanced agentic LLMs using DSAEval. Our results show that Claude-Sonnet-4.5 achieves the strongest overall performance, GPT-5.2 is the most efficient, and MiMo-V2-Flash is the most cost-effective. We further demonstrate that multimodal perception consistently improves performance on vision-related tasks, with gains ranging from 2.04% to 11.30%. Overall, while current data science agents perform well on structured data and routine data anlysis workflows, substantial challenges remain in unstructured domains. Finally, we offer critical insights and outline future research directions to advance the development of data science agents.
PDF11January 22, 2026