DSAEval: Evaluación de Agentes de Ciencia de Datos en una Amplia Gama de Problemas Reales de Ciencia de Datos
DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems
January 20, 2026
Autores: Maojun Sun, Yifei Xie, Yue Wu, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang
cs.AI
Resumen
Los agentes de datos basados en LLM recientes buscan automatizar tareas de ciencia de datos, desde análisis de datos hasta aprendizaje profundo. Sin embargo, la naturaleza abierta de los problemas reales de ciencia de datos, que a menudo abarcan múltiples taxonomías y carecen de respuestas estándar, plantea un desafío significativo para la evaluación. Para abordar esto, presentamos DSAEval, un benchmark que comprende 641 problemas reales de ciencia de datos basados en 285 conjuntos de datos diversos, cubriendo tanto datos estructurados como no estructurados (por ejemplo, visión y texto). DSAEval incorpora tres características distintivas: (1) Percepción del Entorno Multimodal, que permite a los agentes interpretar observaciones de múltiples modalidades incluyendo texto y visión; (2) Interacciones de Múltiples Consultas, que reflejan la naturaleza iterativa y acumulativa de los proyectos reales de ciencia de datos; y (3) Evaluación Multidimensional, que proporciona una evaluación holística a través del razonamiento, código y resultados. Evaluamos sistemáticamente 11 LLMs agentes avanzados utilizando DSAEval. Nuestros resultados muestran que Claude-Sonnet-4.5 logra el rendimiento general más fuerte, GPT-5.2 es el más eficiente, y MiMo-V2-Flash es el más rentable. Además, demostramos que la percepción multimodal mejora consistentemente el rendimiento en tareas relacionadas con visión, con ganancias que van del 2.04% al 11.30%. En general, mientras que los agentes de ciencia de datos actuales se desempeñan bien en datos estructurados y flujos de trabajo de análisis de datos rutinarios, persisten desafíos sustanciales en dominios no estructurados. Finalmente, ofrecemos perspectivas críticas y delineamos futuras direcciones de investigación para avanzar en el desarrollo de agentes de ciencia de datos.
English
Recent LLM-based data agents aim to automate data science tasks ranging from data analysis to deep learning. However, the open-ended nature of real-world data science problems, which often span multiple taxonomies and lack standard answers, poses a significant challenge for evaluation. To address this, we introduce DSAEval, a benchmark comprising 641 real-world data science problems grounded in 285 diverse datasets, covering both structured and unstructured data (e.g., vision and text). DSAEval incorporates three distinctive features: (1) Multimodal Environment Perception, which enables agents to interpret observations from multiple modalities including text and vision; (2) Multi-Query Interactions, which mirror the iterative and cumulative nature of real-world data science projects; and (3) Multi-Dimensional Evaluation, which provides a holistic assessment across reasoning, code, and results. We systematically evaluate 11 advanced agentic LLMs using DSAEval. Our results show that Claude-Sonnet-4.5 achieves the strongest overall performance, GPT-5.2 is the most efficient, and MiMo-V2-Flash is the most cost-effective. We further demonstrate that multimodal perception consistently improves performance on vision-related tasks, with gains ranging from 2.04% to 11.30%. Overall, while current data science agents perform well on structured data and routine data anlysis workflows, substantial challenges remain in unstructured domains. Finally, we offer critical insights and outline future research directions to advance the development of data science agents.