DSBench: Quão Longe Estão os Agentes de Ciência de Dados de se Tornarem Especialistas em Ciência de Dados?DSBench: How Far Are Data Science Agents to Becoming Data Science
Experts?
Os Modelos de Linguagem Grandes (LLMs) e os Modelos de Linguagem Visão-linguagem Grandes (LVLMs) demonstraram impressionantes habilidades de raciocínio linguagem/visão, dando início à recente tendência de construir agentes para aplicações específicas como assistentes de compras ou engenheiros de software de IA. Recentemente, muitos benchmarks de ciência de dados foram propostos para investigar seu desempenho no domínio da ciência de dados. No entanto, os benchmarks de ciência de dados existentes ainda deixam a desejar quando comparados às aplicações reais de ciência de dados devido às suas configurações simplificadas. Para preencher essa lacuna, apresentamos o DSBench, um benchmark abrangente projetado para avaliar agentes de ciência de dados com tarefas realistas. Este benchmark inclui 466 tarefas de análise de dados e 74 tarefas de modelagem de dados, provenientes de competições Eloquence e Kaggle. O DSBench oferece uma configuração realista ao abranger contextos longos, backgrounds de tarefas multimodais, raciocínio com arquivos de dados grandes e estruturas de várias tabelas, e realização de tarefas de modelagem de dados de ponta a ponta. Nossa avaliação dos LLMs, LVLMs e agentes de ponta mostra que eles enfrentam dificuldades com a maioria das tarefas, sendo que o melhor agente resolve apenas 34,12% das tarefas de análise de dados e alcança uma Lacuna de Desempenho Relativo (RPG) de 34,74%. Essas descobertas destacam a necessidade de avanços adicionais no desenvolvimento de agentes de ciência de dados mais práticos, inteligentes e autônomos.