ChatPaper.aiChatPaper

DSBench: Quão Longe Estão os Agentes de Ciência de Dados de se Tornarem Especialistas em Ciência de Dados?

DSBench: How Far Are Data Science Agents to Becoming Data Science Experts?

September 12, 2024
Autores: Liqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, Dong Yu
cs.AI

Resumo

Os Modelos de Linguagem Grandes (LLMs) e os Modelos de Linguagem Visão-linguagem Grandes (LVLMs) demonstraram impressionantes habilidades de raciocínio linguagem/visão, dando início à recente tendência de construir agentes para aplicações específicas como assistentes de compras ou engenheiros de software de IA. Recentemente, muitos benchmarks de ciência de dados foram propostos para investigar seu desempenho no domínio da ciência de dados. No entanto, os benchmarks de ciência de dados existentes ainda deixam a desejar quando comparados às aplicações reais de ciência de dados devido às suas configurações simplificadas. Para preencher essa lacuna, apresentamos o DSBench, um benchmark abrangente projetado para avaliar agentes de ciência de dados com tarefas realistas. Este benchmark inclui 466 tarefas de análise de dados e 74 tarefas de modelagem de dados, provenientes de competições Eloquence e Kaggle. O DSBench oferece uma configuração realista ao abranger contextos longos, backgrounds de tarefas multimodais, raciocínio com arquivos de dados grandes e estruturas de várias tabelas, e realização de tarefas de modelagem de dados de ponta a ponta. Nossa avaliação dos LLMs, LVLMs e agentes de ponta mostra que eles enfrentam dificuldades com a maioria das tarefas, sendo que o melhor agente resolve apenas 34,12% das tarefas de análise de dados e alcança uma Lacuna de Desempenho Relativo (RPG) de 34,74%. Essas descobertas destacam a necessidade de avanços adicionais no desenvolvimento de agentes de ciência de dados mais práticos, inteligentes e autônomos.
English
Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) have demonstrated impressive language/vision reasoning abilities, igniting the recent trend of building agents for targeted applications such as shopping assistants or AI software engineers. Recently, many data science benchmarks have been proposed to investigate their performance in the data science domain. However, existing data science benchmarks still fall short when compared to real-world data science applications due to their simplified settings. To bridge this gap, we introduce DSBench, a comprehensive benchmark designed to evaluate data science agents with realistic tasks. This benchmark includes 466 data analysis tasks and 74 data modeling tasks, sourced from Eloquence and Kaggle competitions. DSBench offers a realistic setting by encompassing long contexts, multimodal task backgrounds, reasoning with large data files and multi-table structures, and performing end-to-end data modeling tasks. Our evaluation of state-of-the-art LLMs, LVLMs, and agents shows that they struggle with most tasks, with the best agent solving only 34.12% of data analysis tasks and achieving a 34.74% Relative Performance Gap (RPG). These findings underscore the need for further advancements in developing more practical, intelligent, and autonomous data science agents.

Summary

AI-Generated Summary

PDF695November 16, 2024