ChatPaper.aiChatPaper

DA-Code: Benchmark di generazione di codice di data science per agenti per modelli di linguaggio di grandi dimensioni

DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

October 9, 2024
Autori: Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu
cs.AI

Abstract

Introduciamo DA-Code, un benchmark di generazione di codice progettato specificamente per valutare LLM su compiti di scienza dei dati basati su agenti. Questo benchmark presenta tre elementi principali: in primo luogo, i compiti all'interno di DA-Code sono intrinsecamente sfidanti, differenziandoli dai tradizionali compiti di generazione di codice e richiedendo competenze avanzate di codifica nella fondazione e nella pianificazione. In secondo lu luogo, gli esempi in DA-Code si basano tutti su dati reali e diversificati, coprendo una vasta gamma di compiti complessi di manipolazione e analisi dei dati. In terzo luogo, per risolvere i compiti, i modelli devono utilizzare linguaggi di programmazione complessi per la scienza dei dati, per eseguire elaborazioni di dati intricate e ottenere le risposte. Abbiamo istituito il benchmark in un ambiente controllabile ed eseguibile che si allinea con scenari di analisi dei dati del mondo reale ed è scalabile. Gli annotatori progettano meticolosamente il set di valutazione per garantire l'accuratezza e la robustezza della valutazione. Sviluppiamo il baselines DA-Agent. Gli esperimenti mostrano che, sebbene il baselines si comporti meglio rispetto ad altri framework esistenti, utilizzando i migliori LLM attuali si raggiunge solo il 30,5% di accuratezza, lasciando ampio spazio per miglioramenti. Rilasciamo il nostro benchmark su https://da-code-bench.github.io.
English
We introduce DA-Code, a code generation benchmark specifically designed to assess LLMs on agent-based data science tasks. This benchmark features three core elements: First, the tasks within DA-Code are inherently challenging, setting them apart from traditional code generation tasks and demanding advanced coding skills in grounding and planning. Second, examples in DA-Code are all based on real and diverse data, covering a wide range of complex data wrangling and analytics tasks. Third, to solve the tasks, the models must utilize complex data science programming languages, to perform intricate data processing and derive the answers. We set up the benchmark in a controllable and executable environment that aligns with real-world data analysis scenarios and is scalable. The annotators meticulously design the evaluation suite to ensure the accuracy and robustness of the evaluation. We develop the DA-Agent baseline. Experiments show that although the baseline performs better than other existing frameworks, using the current best LLMs achieves only 30.5% accuracy, leaving ample room for improvement. We release our benchmark at https://da-code-bench.github.io.
PDF53November 16, 2024