DSAEval: Valutazione di Agenti di Data Science su un'ampia gamma di problemi reali di data science

Abstract

I recenti agenti dati basati su LLM mirano ad automatizzare le attività di data science, dall'analisi dei dati al deep learning. Tuttavia, la natura aperta dei problemi di data science del mondo reale, che spesso abbracciano multiple tassonomie e mancano di risposte standard, rappresenta una sfida significativa per la valutazione. Per affrontare questo problema, introduciamo DSAEval, un benchmark che comprende 641 problemi di data science reali basati su 285 dataset diversificati, coprendo sia dati strutturati che non strutturati (ad esempio, immagini e testo). DSAEval incorpora tre caratteristiche distintive: (1) Percezione Ambientale Multimodale, che consente agli agenti di interpretare osservazioni da multiple modalità incluse testo e immagini; (2) Interazioni Multi-Query, che rispecchiano la natura iterativa e cumulativa dei progetti di data science reali; e (3) Valutazione Multi-Dimensionale, che fornisce una valutazione olistica attraverso ragionamento, codice e risultati. Valutiamo sistematicamente 11 LLM agentistici avanzati utilizzando DSAEval. I nostri risultati mostrano che Claude-Sonnet-4.5 raggiunge le prestazioni complessive più solide, GPT-5.2 è il più efficiente, e MiMo-V2-Flash è il più conveniente. Dimostriamo inoltre che la percezione multimodale migliora costantemente le prestazioni su compiti relativi alle immagini, con guadagni che vanno dal 2,04% all'11,30%. In generale, sebbene gli attuali agenti di data science performino bene su dati strutturati e flussi di lavoro di analisi dati di routine, rimangono sfide sostanziali nei domini non strutturati. Infine, offriamo spunti critici e delineiamo future direzioni di ricerca per far progredire lo sviluppo degli agenti di data science.

English

Recent LLM-based data agents aim to automate data science tasks ranging from data analysis to deep learning. However, the open-ended nature of real-world data science problems, which often span multiple taxonomies and lack standard answers, poses a significant challenge for evaluation. To address this, we introduce DSAEval, a benchmark comprising 641 real-world data science problems grounded in 285 diverse datasets, covering both structured and unstructured data (e.g., vision and text). DSAEval incorporates three distinctive features: (1) Multimodal Environment Perception, which enables agents to interpret observations from multiple modalities including text and vision; (2) Multi-Query Interactions, which mirror the iterative and cumulative nature of real-world data science projects; and (3) Multi-Dimensional Evaluation, which provides a holistic assessment across reasoning, code, and results. We systematically evaluate 11 advanced agentic LLMs using DSAEval. Our results show that Claude-Sonnet-4.5 achieves the strongest overall performance, GPT-5.2 is the most efficient, and MiMo-V2-Flash is the most cost-effective. We further demonstrate that multimodal perception consistently improves performance on vision-related tasks, with gains ranging from 2.04% to 11.30%. Overall, while current data science agents perform well on structured data and routine data anlysis workflows, substantial challenges remain in unstructured domains. Finally, we offer critical insights and outline future research directions to advance the development of data science agents.

DSAEval: Valutazione di Agenti di Data Science su un'ampia gamma di problemi reali di data science

DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems

Abstract

Support