DSAEval: 실제 데이터 과학 문제의 광범위한 영역에서 데이터 과학 에이전트 평가하기
DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems
January 20, 2026
저자: Maojun Sun, Yifei Xie, Yue Wu, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang
cs.AI
초록
최근 LLM 기반 데이터 에이전트는 데이터 분석부터 딥러닝에 이르는 데이터 과학 업무 자동화를 목표로 합니다. 그러나 실제 데이터 과학 문제는 종종 여러 분류 체계를 아우르며 표준 답안이 부재하는 개방형 특성으로 인해 평가에 상당한 어려움이 따릅니다. 이를 해결하기 위해 우리는 285개의 다양한 데이터셋을 기반으로 구조화 및 비구조화 데이터(예: 영상 및 텍스트)를 모두 포함하는 641개의 실제 데이터 과학 문제로 구성된 벤치마크인 DSAEval을 소개합니다. DSAEval은 세 가지 독특한 특징을 포함합니다: (1) 텍스트와 영상을 포함한 다중 모달 관측치 해석이 가능한 다중 모달 환경 인지, (2) 실제 데이터 과학 프로젝트의 반복적·누적적 특성을 반영한 다중 질의 상호작용, (3) 추론, 코드, 결과에 걸친 종합적 평가를 제공하는 다차원 평가입니다. 우리는 DSAEval을 사용하여 11개의 고급 에이전트 LLM을 체계적으로 평가했습니다. 그 결과, Claude-Sonnet-4.5가 전체적으로 가장 강력한 성능을 보였으며, GPT-5.2가 가장 효율적이고, MiMo-V2-Flash가 가장 비용 대비 효과적이었습니다. 또한 다중 모달 인식이 영상 관련 작업에서 2.04%에서 11.30%에 이르는 성능 향상을 꾸준히 가져온다는 점을 입증했습니다. 전반적으로, 현재 데이터 과학 에이전트는 구조화된 데이터와 일반적인 데이터 분석 워크플로우에서는 우수한 성능을 보이지만, 비구조화 영역에서는 여전히 상당한 과제가 남아 있습니다. 마지막으로, 데이터 과학 에이전트 발전을 위한 핵심 통찰을 제공하고 향후 연구 방향을 제시합니다.
English
Recent LLM-based data agents aim to automate data science tasks ranging from data analysis to deep learning. However, the open-ended nature of real-world data science problems, which often span multiple taxonomies and lack standard answers, poses a significant challenge for evaluation. To address this, we introduce DSAEval, a benchmark comprising 641 real-world data science problems grounded in 285 diverse datasets, covering both structured and unstructured data (e.g., vision and text). DSAEval incorporates three distinctive features: (1) Multimodal Environment Perception, which enables agents to interpret observations from multiple modalities including text and vision; (2) Multi-Query Interactions, which mirror the iterative and cumulative nature of real-world data science projects; and (3) Multi-Dimensional Evaluation, which provides a holistic assessment across reasoning, code, and results. We systematically evaluate 11 advanced agentic LLMs using DSAEval. Our results show that Claude-Sonnet-4.5 achieves the strongest overall performance, GPT-5.2 is the most efficient, and MiMo-V2-Flash is the most cost-effective. We further demonstrate that multimodal perception consistently improves performance on vision-related tasks, with gains ranging from 2.04% to 11.30%. Overall, while current data science agents perform well on structured data and routine data anlysis workflows, substantial challenges remain in unstructured domains. Finally, we offer critical insights and outline future research directions to advance the development of data science agents.