DA-Code: Бенчмарк генерации кода агентом для крупных языковых моделей
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models
October 9, 2024
Авторы: Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu
cs.AI
Аннотация
Мы представляем DA-Code, бенчмарк по генерации кода, специально разработанный для оценки LLM на задачах по агентно-ориентированной науке о данных. Этот бенчмарк включает три основных элемента: Во-первых, задачи в DA-Code по своей природе сложны, что отличает их от традиционных задач генерации кода и требует продвинутых навыков кодирования в области основ и планирования. Во-вторых, примеры в DA-Code основаны на реальных и разнообразных данных, охватывающих широкий спектр сложных задач обработки данных и аналитики. В-третьих, для решения задач модели должны использовать сложные языки программирования в области науки о данных, чтобы выполнять сложную обработку данных и выводить ответы. Мы создали бенчмарк в контролируемой и исполнимой среде, соответствующей сценариям анализа данных в реальном мире и масштабируемой. Аннотаторы тщательно разрабатывают набор оценочных средств для обеспечения точности и надежности оценки. Мы разработали базовую модель DA-Agent. Эксперименты показывают, что хотя базовая модель работает лучше, чем другие существующие фреймворки, использование текущих лучших LLM обеспечивает лишь 30.5% точности, что оставляет много места для улучшения. Мы предоставляем наш бенчмарк по адресу https://da-code-bench.github.io.
English
We introduce DA-Code, a code generation benchmark specifically designed to
assess LLMs on agent-based data science tasks. This benchmark features three
core elements: First, the tasks within DA-Code are inherently challenging,
setting them apart from traditional code generation tasks and demanding
advanced coding skills in grounding and planning. Second, examples in DA-Code
are all based on real and diverse data, covering a wide range of complex data
wrangling and analytics tasks. Third, to solve the tasks, the models must
utilize complex data science programming languages, to perform intricate data
processing and derive the answers. We set up the benchmark in a controllable
and executable environment that aligns with real-world data analysis scenarios
and is scalable. The annotators meticulously design the evaluation suite to
ensure the accuracy and robustness of the evaluation. We develop the DA-Agent
baseline. Experiments show that although the baseline performs better than
other existing frameworks, using the current best LLMs achieves only 30.5%
accuracy, leaving ample room for improvement. We release our benchmark at
https://da-code-bench.github.io.Summary
AI-Generated Summary