ChatPaper.aiChatPaper

DA-Code: Benchmark voor het genereren van agent data science code voor grote taalmodellen

DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

October 9, 2024
Auteurs: Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu
cs.AI

Samenvatting

We introduceren DA-Code, een codegeneratie benchmark die specifiek is ontworpen om LLMs te beoordelen op op agent-gebaseerde data science taken. Deze benchmark heeft drie kernonderdelen: Ten eerste zijn de taken binnen DA-Code inherent uitdagend, waardoor ze zich onderscheiden van traditionele codegeneratietaken en geavanceerde programmeervaardigheden vereisen op het gebied van grondslagen en planning. Ten tweede zijn de voorbeelden in DA-Code allemaal gebaseerd op echte en diverse data, die een breed scala aan complexe data manipulatie- en analysetaken bestrijken. Ten derde moeten de modellen om de taken op te lossen complexe data science programmeertalen gebruiken om ingewikkelde data verwerking uit te voeren en de antwoorden af te leiden. We hebben de benchmark opgezet in een controleerbare en uitvoerbare omgeving die aansluit bij scenario's voor data-analyse in de echte wereld en schaalbaar is. De annotatoren ontwerpen zorgvuldig de evaluatiesuite om de nauwkeurigheid en robuustheid van de evaluatie te waarborgen. We hebben de DA-Agent baseline ontwikkeld. Experimenten tonen aan dat hoewel de baseline beter presteert dan andere bestaande frameworks, het gebruik van de huidige beste LLMs slechts een nauwkeurigheid van 30,5% behaalt, wat ruimte laat voor verbetering. We publiceren onze benchmark op https://da-code-bench.github.io.
English
We introduce DA-Code, a code generation benchmark specifically designed to assess LLMs on agent-based data science tasks. This benchmark features three core elements: First, the tasks within DA-Code are inherently challenging, setting them apart from traditional code generation tasks and demanding advanced coding skills in grounding and planning. Second, examples in DA-Code are all based on real and diverse data, covering a wide range of complex data wrangling and analytics tasks. Third, to solve the tasks, the models must utilize complex data science programming languages, to perform intricate data processing and derive the answers. We set up the benchmark in a controllable and executable environment that aligns with real-world data analysis scenarios and is scalable. The annotators meticulously design the evaluation suite to ensure the accuracy and robustness of the evaluation. We develop the DA-Agent baseline. Experiments show that although the baseline performs better than other existing frameworks, using the current best LLMs achieves only 30.5% accuracy, leaving ample room for improvement. We release our benchmark at https://da-code-bench.github.io.

Summary

AI-Generated Summary

PDF53November 16, 2024