DSAEval: Avaliação de Agentes de Ciência de Dados em uma Ampla Gama de Problemas Reais de Ciência de Dados

Resumo

Os agentes de dados baseados em LLM recentes visam automatizar tarefas de ciência de dados, desde análise de dados até aprendizado profundo. No entanto, a natureza aberta dos problemas reais de ciência de dados, que frequentemente abrangem múltiplas taxonomias e carecem de respostas padronizadas, representa um desafio significativo para a avaliação. Para enfrentar isso, introduzimos o DSAEval, um benchmark composto por 641 problemas reais de ciência de dados fundamentados em 285 conjuntos de dados diversos, abrangendo dados estruturados e não estruturados (por exemplo, visão e texto). O DSAEval incorpora três características distintas: (1) Percepção de Ambiente Multimodal, que permite aos agentes interpretar observações de múltiplas modalidades, incluindo texto e visão; (2) Interações de Múltiplas Consultas, que espelham a natureza iterativa e cumulativa de projetos reais de ciência de dados; e (3) Avaliação Multidimensional, que fornece uma avaliação holística através do raciocínio, código e resultados. Avaliamos sistematicamente 11 LLMs agentivos avançados usando o DSAEval. Nossos resultados mostram que o Claude-Sonnet-4.5 alcança o desempenho geral mais forte, o GPT-5.2 é o mais eficiente e o MiMo-V2-Flash é o mais rentável. Demonstramos ainda que a percepção multimodal melhora consistentemente o desempenho em tarefas relacionadas à visão, com ganhos variando de 2,04% a 11,30%. No geral, embora os agentes atuais de ciência de dados tenham um bom desempenho em dados estruturados e fluxos de trabalho rotineiros de análise de dados, desafios substanciais permanecem em domínios não estruturados. Por fim, oferecemos insights críticos e delineamos direções futuras de pesquisa para avançar o desenvolvimento de agentes de ciência de dados.

English

Recent LLM-based data agents aim to automate data science tasks ranging from data analysis to deep learning. However, the open-ended nature of real-world data science problems, which often span multiple taxonomies and lack standard answers, poses a significant challenge for evaluation. To address this, we introduce DSAEval, a benchmark comprising 641 real-world data science problems grounded in 285 diverse datasets, covering both structured and unstructured data (e.g., vision and text). DSAEval incorporates three distinctive features: (1) Multimodal Environment Perception, which enables agents to interpret observations from multiple modalities including text and vision; (2) Multi-Query Interactions, which mirror the iterative and cumulative nature of real-world data science projects; and (3) Multi-Dimensional Evaluation, which provides a holistic assessment across reasoning, code, and results. We systematically evaluate 11 advanced agentic LLMs using DSAEval. Our results show that Claude-Sonnet-4.5 achieves the strongest overall performance, GPT-5.2 is the most efficient, and MiMo-V2-Flash is the most cost-effective. We further demonstrate that multimodal perception consistently improves performance on vision-related tasks, with gains ranging from 2.04% to 11.30%. Overall, while current data science agents perform well on structured data and routine data anlysis workflows, substantial challenges remain in unstructured domains. Finally, we offer critical insights and outline future research directions to advance the development of data science agents.

DSAEval: Avaliação de Agentes de Ciência de Dados em uma Ampla Gama de Problemas Reais de Ciência de Dados

DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems

Resumo

Support