DSAEval : Évaluation des agents de science des données sur un large éventail de problèmes réels de science des données
DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems
January 20, 2026
papers.authors: Maojun Sun, Yifei Xie, Yue Wu, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang
cs.AI
papers.abstract
Les agents de données récents basés sur LLM visent à automatiser les tâches de science des données, allant de l'analyse de données au deep learning. Cependant, la nature ouverte des problèmes réels de science des données, qui couvrent souvent plusieurs taxonomies et manquent de réponses standardisées, constitue un défi majeur pour l'évaluation. Pour y remédier, nous présentons DSAEval, un benchmark comprenant 641 problèmes réels de science des données ancrés dans 285 ensembles de données diversifiés, couvrant à la fois des données structurées et non structurées (par exemple, vision et texte). DSAEval intègre trois caractéristiques distinctives : (1) la Perception Environnementale Multimodale, qui permet aux agents d'interpréter des observations provenant de multiples modalités incluant le texte et la vision ; (2) les Interactions Multi-Requêtes, qui reflètent la nature itérative et cumulative des projets réels de science des données ; et (3) l'Évaluation Multidimensionnelle, qui fournit une appréciation holistique couvrant le raisonnement, le code et les résultats. Nous évaluons systématiquement 11 LLMs agentiels avancés à l'aide de DSAEval. Nos résultats montrent que Claude-Sonnet-4.5 obtient les performances globales les plus solides, GPT-5.2 est le plus efficace, et MiMo-V2-Flash est le plus rentable. Nous démontrons en outre que la perception multimodale améliore constamment les performances sur les tâches liées à la vision, avec des gains allant de 2,04 % à 11,30 %. Globalement, bien que les agents actuels de science des données performent bien sur les données structurées et les workflows d'analyse de données routiniers, des défis substantiels subsistent dans les domaines non structurés. Enfin, nous offrons des perspectives critiques et esquissons des directions de recherche futures pour faire progresser le développement des agents de science des données.
English
Recent LLM-based data agents aim to automate data science tasks ranging from data analysis to deep learning. However, the open-ended nature of real-world data science problems, which often span multiple taxonomies and lack standard answers, poses a significant challenge for evaluation. To address this, we introduce DSAEval, a benchmark comprising 641 real-world data science problems grounded in 285 diverse datasets, covering both structured and unstructured data (e.g., vision and text). DSAEval incorporates three distinctive features: (1) Multimodal Environment Perception, which enables agents to interpret observations from multiple modalities including text and vision; (2) Multi-Query Interactions, which mirror the iterative and cumulative nature of real-world data science projects; and (3) Multi-Dimensional Evaluation, which provides a holistic assessment across reasoning, code, and results. We systematically evaluate 11 advanced agentic LLMs using DSAEval. Our results show that Claude-Sonnet-4.5 achieves the strongest overall performance, GPT-5.2 is the most efficient, and MiMo-V2-Flash is the most cost-effective. We further demonstrate that multimodal perception consistently improves performance on vision-related tasks, with gains ranging from 2.04% to 11.30%. Overall, while current data science agents perform well on structured data and routine data anlysis workflows, substantial challenges remain in unstructured domains. Finally, we offer critical insights and outline future research directions to advance the development of data science agents.