DA-Code: Benchmark de Geração de Código de Ciência de Dados de Agentes para Modelos de Linguagem Grandes
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models
October 9, 2024
Autores: Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu
cs.AI
Resumo
Apresentamos o DA-Code, um benchmark de geração de código especificamente projetado para avaliar LLMs em tarefas de ciência de dados baseadas em agentes. Este benchmark apresenta três elementos principais: Primeiro, as tarefas dentro do DA-Code são inerentemente desafiadoras, diferenciando-se das tradicionais tarefas de geração de código e exigindo habilidades avançadas de codificação em fundamentação e planejamento. Em segundo lugar, os exemplos no DA-Code são todos baseados em dados reais e diversos, abrangendo uma ampla gama de tarefas complexas de manipulação e análise de dados. Terceiro, para resolver as tarefas, os modelos devem utilizar linguagens de programação complexas de ciência de dados, para realizar processamento de dados intricado e derivar as respostas. Configuramos o benchmark em um ambiente controlável e executável que se alinha com cenários reais de análise de dados e é escalável. Os anotadores projetam meticulosamente a suíte de avaliação para garantir a precisão e robustez da avaliação. Desenvolvemos a linha de base do DA-Agent. Experimentos mostram que, embora a linha de base tenha um desempenho melhor do que outros frameworks existentes, o uso dos atuais melhores LLMs alcança apenas 30,5% de precisão, deixando amplo espaço para melhorias. Disponibilizamos nosso benchmark em https://da-code-bench.github.io.
English
We introduce DA-Code, a code generation benchmark specifically designed to
assess LLMs on agent-based data science tasks. This benchmark features three
core elements: First, the tasks within DA-Code are inherently challenging,
setting them apart from traditional code generation tasks and demanding
advanced coding skills in grounding and planning. Second, examples in DA-Code
are all based on real and diverse data, covering a wide range of complex data
wrangling and analytics tasks. Third, to solve the tasks, the models must
utilize complex data science programming languages, to perform intricate data
processing and derive the answers. We set up the benchmark in a controllable
and executable environment that aligns with real-world data analysis scenarios
and is scalable. The annotators meticulously design the evaluation suite to
ensure the accuracy and robustness of the evaluation. We develop the DA-Agent
baseline. Experiments show that although the baseline performs better than
other existing frameworks, using the current best LLMs achieves only 30.5%
accuracy, leaving ample room for improvement. We release our benchmark at
https://da-code-bench.github.io.Summary
AI-Generated Summary