DSAEval: Evaluatie van Data Science Agents op een Breed Scala aan Realistische Data Science Problemen

Samenvatting

Recente op LLM's gebaseerde data-agents hebben als doel datawetenschapstaken te automatiseren, variërend van data-analyse tot deep learning. De open-eindige aard van real-world datawetenschapsproblemen, die vaak meerdere taxonomieën omvatten en geen standaardantwoorden hebben, vormt echter een grote uitdaging voor evaluatie. Om dit aan te pakken, introduceren we DSAEval, een benchmark bestaande uit 641 real-world datawetenschapsproblemen gebaseerd op 285 diverse datasets, die zowel gestructureerde als ongestructureerde data omvatten (bijvoorbeeld beeld en tekst). DSAEval bevat drie onderscheidende kenmerken: (1) Multimodale Omgevingsperceptie, waarmee agents observaties uit meerdere modaliteiten, waaronder tekst en beeld, kunnen interpreteren; (2) Multi-Query Interacties, die de iteratieve en cumulatieve aard van real-world datawetenschapsprojecten weerspiegelen; en (3) Multi-dimensionale Evaluatie, die een holistische beoordeling biedt over redenering, code en resultaten. We evalueren systematisch 11 geavanceerde agentische LLM's met behulp van DSAEval. Onze resultaten tonen aan dat Claude-Sonnet-4.5 de sterkste algehele prestaties bereikt, GPT-5.2 het meest efficiënt is, en MiMo-V2-Flash de beste prijs-kwaliteitverhouding heeft. We demonstreren verder dat multimodale perceptie consistent de prestaties op beeldgerelateerde taken verbetert, met winsten variërend van 2,04% tot 11,30%. Over het algemeen presteren huidige datawetenschapsagents goed op gestructureerde data en routine data-analyseworkflows, maar blijven er aanzienlijke uitdagingen bestaan in ongestructureerde domeinen. Tot slot bieden we kritische inzichten en schetsen we toekomstige onderzoeksrichtingen om de ontwikkeling van datawetenschapsagents te bevorderen.

English

Recent LLM-based data agents aim to automate data science tasks ranging from data analysis to deep learning. However, the open-ended nature of real-world data science problems, which often span multiple taxonomies and lack standard answers, poses a significant challenge for evaluation. To address this, we introduce DSAEval, a benchmark comprising 641 real-world data science problems grounded in 285 diverse datasets, covering both structured and unstructured data (e.g., vision and text). DSAEval incorporates three distinctive features: (1) Multimodal Environment Perception, which enables agents to interpret observations from multiple modalities including text and vision; (2) Multi-Query Interactions, which mirror the iterative and cumulative nature of real-world data science projects; and (3) Multi-Dimensional Evaluation, which provides a holistic assessment across reasoning, code, and results. We systematically evaluate 11 advanced agentic LLMs using DSAEval. Our results show that Claude-Sonnet-4.5 achieves the strongest overall performance, GPT-5.2 is the most efficient, and MiMo-V2-Flash is the most cost-effective. We further demonstrate that multimodal perception consistently improves performance on vision-related tasks, with gains ranging from 2.04% to 11.30%. Overall, while current data science agents perform well on structured data and routine data anlysis workflows, substantial challenges remain in unstructured domains. Finally, we offer critical insights and outline future research directions to advance the development of data science agents.

DSAEval: Evaluatie van Data Science Agents op een Breed Scala aan Realistische Data Science Problemen

DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems

Samenvatting

Support