ChatPaper.aiChatPaper

DA-Code: Agent Data Science Code Generation Benchmark für große Sprachmodelle

DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

October 9, 2024
Autoren: Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu
cs.AI

Zusammenfassung

Wir stellen DA-Code vor, einen Code-Generierungs-Benchmark, der speziell entwickelt wurde, um LLMs bei agentenbasierten Datenwissenschaftsaufgaben zu bewerten. Dieser Benchmark umfasst drei Kernelemente: Erstens sind die Aufgaben in DA-Code von Natur aus anspruchsvoll, was sie von traditionellen Code-Generierungsaufgaben abhebt und fortgeschrittene Codierungskenntnisse in der Verankerung und Planung erfordert. Zweitens basieren die Beispiele in DA-Code alle auf realen und vielfältigen Daten, die eine breite Palette komplexer Datenbereinigungs- und Analyseaufgaben abdecken. Drittens müssen die Modelle zur Lösung der Aufgaben komplexe Datenwissenschafts-Programmiersprachen nutzen, um komplexe Datenverarbeitung durchzuführen und die Antworten abzuleiten. Wir haben den Benchmark in einer kontrollierbaren und ausführbaren Umgebung aufgebaut, die mit Szenarien der Datenanalyse in der realen Welt übereinstimmt und skalierbar ist. Die Annotatoren entwerfen sorgfältig die Bewertungssuite, um die Genauigkeit und Robustheit der Bewertung sicherzustellen. Wir entwickeln die DA-Agent Baseline. Experimente zeigen, dass obwohl die Baseline besser abschneidet als andere bestehende Frameworks, die Verwendung der aktuellen besten LLMs nur eine Genauigkeit von 30,5% erreicht, was noch viel Raum für Verbesserungen lässt. Wir veröffentlichen unseren Benchmark unter https://da-code-bench.github.io.
English
We introduce DA-Code, a code generation benchmark specifically designed to assess LLMs on agent-based data science tasks. This benchmark features three core elements: First, the tasks within DA-Code are inherently challenging, setting them apart from traditional code generation tasks and demanding advanced coding skills in grounding and planning. Second, examples in DA-Code are all based on real and diverse data, covering a wide range of complex data wrangling and analytics tasks. Third, to solve the tasks, the models must utilize complex data science programming languages, to perform intricate data processing and derive the answers. We set up the benchmark in a controllable and executable environment that aligns with real-world data analysis scenarios and is scalable. The annotators meticulously design the evaluation suite to ensure the accuracy and robustness of the evaluation. We develop the DA-Agent baseline. Experiments show that although the baseline performs better than other existing frameworks, using the current best LLMs achieves only 30.5% accuracy, leaving ample room for improvement. We release our benchmark at https://da-code-bench.github.io.

Summary

AI-Generated Summary

PDF53November 16, 2024