DA-Code : Benchmark de génération de code de science des données d'agent pour les grands modèles de langage
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models
October 9, 2024
Auteurs: Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu
cs.AI
Résumé
Nous présentons DA-Code, un banc d'essai de génération de code spécifiquement conçu pour évaluer les LLM sur des tâches de science des données basées sur des agents. Ce banc d'essai comprend trois éléments principaux : Tout d'abord, les tâches de DA-Code sont intrinsèquement difficiles, les distinguant des tâches traditionnelles de génération de code et exigeant des compétences avancées en codage, en ancrage et en planification. Deuxièmement, les exemples de DA-Code sont tous basés sur des données réelles et diverses, couvrant un large éventail de tâches complexes de manipulation et d'analyse de données. Troisièmement, pour résoudre les tâches, les modèles doivent utiliser des langages de programmation complexes en science des données, pour effectuer un traitement de données complexe et déduire les réponses. Nous avons mis en place le banc d'essai dans un environnement contrôlable et exécutable qui correspond à des scénarios d'analyse de données du monde réel et qui est évolutif. Les annotateurs conçoivent méticuleusement la suite d'évaluation pour garantir l'exactitude et la robustesse de l'évaluation. Nous développons la ligne de base DA-Agent. Les expériences montrent que bien que la ligne de base performe mieux que d'autres cadres existants, l'utilisation des LLM actuels les plus performants n'atteint qu'une précision de 30,5 %, laissant ainsi une marge de progression importante. Nous mettons notre banc d'essai à disposition sur https://da-code-bench.github.io.
English
We introduce DA-Code, a code generation benchmark specifically designed to
assess LLMs on agent-based data science tasks. This benchmark features three
core elements: First, the tasks within DA-Code are inherently challenging,
setting them apart from traditional code generation tasks and demanding
advanced coding skills in grounding and planning. Second, examples in DA-Code
are all based on real and diverse data, covering a wide range of complex data
wrangling and analytics tasks. Third, to solve the tasks, the models must
utilize complex data science programming languages, to perform intricate data
processing and derive the answers. We set up the benchmark in a controllable
and executable environment that aligns with real-world data analysis scenarios
and is scalable. The annotators meticulously design the evaluation suite to
ensure the accuracy and robustness of the evaluation. We develop the DA-Agent
baseline. Experiments show that although the baseline performs better than
other existing frameworks, using the current best LLMs achieves only 30.5%
accuracy, leaving ample room for improvement. We release our benchmark at
https://da-code-bench.github.io.Summary
AI-Generated Summary