DA-Code: Agente de Generación de Código de Ciencia de Datos para Modelos de Lenguaje Grandes
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models
October 9, 2024
Autores: Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu
cs.AI
Resumen
Presentamos DA-Code, un banco de pruebas de generación de código diseñado específicamente para evaluar LLMs en tareas de ciencia de datos basadas en agentes. Este banco de pruebas presenta tres elementos principales: en primer lugar, las tareas dentro de DA-Code son inherentemente desafiantes, lo que las diferencia de las tareas tradicionales de generación de código y requiere habilidades avanzadas de codificación en fundamentos y planificación. En segundo lugar, los ejemplos en DA-Code se basan todos en datos reales y diversos, abarcando una amplia gama de tareas complejas de manipulación y análisis de datos. En tercer lugar, para resolver las tareas, los modelos deben utilizar lenguajes de programación complejos de ciencia de datos, para realizar un procesamiento de datos intrincado y derivar las respuestas. Configuramos el banco de pruebas en un entorno controlable y ejecutable que se alinea con escenarios de análisis de datos del mundo real y es escalable. Los anotadores diseñan meticulosamente el conjunto de evaluación para garantizar la precisión y robustez de la evaluación. Desarrollamos el punto de referencia DA-Agent. Los experimentos muestran que aunque el punto de referencia tiene un mejor rendimiento que otros marcos existentes, el uso de los LLMs actuales más avanzados solo logra una precisión del 30.5%, dejando un amplio margen para mejoras. Publicamos nuestro banco de pruebas en https://da-code-bench.github.io.
English
We introduce DA-Code, a code generation benchmark specifically designed to
assess LLMs on agent-based data science tasks. This benchmark features three
core elements: First, the tasks within DA-Code are inherently challenging,
setting them apart from traditional code generation tasks and demanding
advanced coding skills in grounding and planning. Second, examples in DA-Code
are all based on real and diverse data, covering a wide range of complex data
wrangling and analytics tasks. Third, to solve the tasks, the models must
utilize complex data science programming languages, to perform intricate data
processing and derive the answers. We set up the benchmark in a controllable
and executable environment that aligns with real-world data analysis scenarios
and is scalable. The annotators meticulously design the evaluation suite to
ensure the accuracy and robustness of the evaluation. We develop the DA-Agent
baseline. Experiments show that although the baseline performs better than
other existing frameworks, using the current best LLMs achieves only 30.5%
accuracy, leaving ample room for improvement. We release our benchmark at
https://da-code-bench.github.io.Summary
AI-Generated Summary