ML-Bench: Modelos de Lenguaje de Gran Escala Utilizan Bibliotecas de Código Abierto para Tareas de Aprendizaje Automático
ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks
November 16, 2023
Autores: Yuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun Shao, Zexuan Deng, Helan Hu, Zengxian Yang, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Zhengliang Li, Liang Chen, Yiming Zong, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI
Resumen
Los modelos de lenguaje de gran escala han demostrado un rendimiento prometedor en los benchmarks de generación de código. Sin embargo, existe una brecha considerable entre estos logros en los benchmarks y su aplicabilidad práctica, atribuida principalmente a la dependencia de la programación en el mundo real de bibliotecas preexistentes. En lugar de evaluar a los LLMs para que generen código desde cero, este trabajo tiene como objetivo proponer una nueva configuración de evaluación en la que los LLMs utilicen bibliotecas de código abierto para completar tareas de aprendizaje automático. Por lo tanto, proponemos ML-Bench, un benchmark extenso desarrollado para evaluar la eficacia de los LLMs en el aprovechamiento de funciones existentes en bibliotecas de código abierto. Este consta de 10044 muestras que abarcan 130 tareas en 14 repositorios destacados de aprendizaje automático en GitHub. En este contexto, dada una instrucción específica de tarea de aprendizaje automático y el archivo README correspondiente en una base de código, se le asigna a un LLM la tarea de generar código para cumplir con la tarea. Esto requiere la comprensión de documentos largos intercalados con lenguaje y código, así como la comprensión de estructuras de código complejas entre archivos, lo que introduce nuevos desafíos. Cabe destacar que, aunque GPT-4 muestra una mejora notable sobre otros LLMs, solo logra completar el 39.73\% de las tareas, dejando un gran espacio para la mejora. Abordamos estos desafíos proponiendo ML-Agent, diseñado para navegar eficazmente la base de código, localizar documentación, recuperar código y generar código ejecutable. Los resultados empíricos demuestran que ML-Agent, construido sobre GPT-4, resulta en mejoras adicionales. El código, los datos y los modelos están disponibles en https://ml-bench.github.io/.
English
Large language models have shown promising performance in code generation
benchmarks. However, a considerable divide exists between these benchmark
achievements and their practical applicability, primarily attributed to
real-world programming's reliance on pre-existing libraries. Instead of
evaluating LLMs to code from scratch, this work aims to propose a new
evaluation setup where LLMs use open-source libraries to finish machine
learning tasks. Therefore, we propose ML-Bench, an expansive benchmark
developed to assess the effectiveness of LLMs in leveraging existing functions
in open-source libraries. Consisting of 10044 samples spanning 130 tasks over
14 notable machine learning GitHub repositories. In this setting, given a
specific machine learning task instruction and the accompanying README in a
codebase, an LLM is tasked to generate code to accomplish the task. This
necessitates the comprehension of long and language-code interleaved documents,
as well as the understanding of complex cross-file code structures, introducing
new challenges. Notably, while GPT-4 exhibits remarkable improvement over other
LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space
for improvement. We address these challenges by proposing ML-Agent, designed to
effectively navigate the codebase, locate documentation, retrieve code, and
generate executable code. Empirical results demonstrate that ML-Agent, built
upon GPT-4, results in further improvements. Code, data, and models are
available at https://ml-bench.github.io/.