ML-Bench: Modelos de Linguagem de Grande Escala Utilizam Bibliotecas de Código Aberto para Tarefas de Aprendizado de Máquina
ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks
November 16, 2023
Autores: Yuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun Shao, Zexuan Deng, Helan Hu, Zengxian Yang, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Zhengliang Li, Liang Chen, Yiming Zong, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI
Resumo
Modelos de linguagem de grande escala têm demonstrado desempenho promissor em benchmarks de geração de código. No entanto, existe uma considerável lacuna entre esses resultados em benchmarks e sua aplicabilidade prática, atribuída principalmente à dependência da programação do mundo real em bibliotecas pré-existentes. Em vez de avaliar modelos de linguagem de grande escala (LLMs) para codificar do zero, este trabalho visa propor uma nova configuração de avaliação em que os LLMs utilizam bibliotecas de código aberto para concluir tarefas de aprendizado de máquina. Portanto, propomos o ML-Bench, um benchmark abrangente desenvolvido para avaliar a eficácia dos LLMs em aproveitar funções existentes em bibliotecas de código aberto. Composto por 10044 amostras abrangendo 130 tarefas em 14 repositórios notáveis de aprendizado de máquina no GitHub. Nesse cenário, dada uma instrução específica de tarefa de aprendizado de máquina e o arquivo README correspondente em uma base de código, um LLM é encarregado de gerar código para realizar a tarefa. Isso exige a compreensão de documentos longos e intercalados com linguagem e código, bem como o entendimento de estruturas de código complexas entre arquivos, introduzindo novos desafios. Notavelmente, embora o GPT-4 exiba uma melhoria notável em relação a outros LLMs, ele consegue concluir apenas 39,73% das tarefas, deixando um grande espaço para melhorias. Abordamos esses desafios propondo o ML-Agent, projetado para navegar eficientemente na base de código, localizar documentação, recuperar código e gerar código executável. Resultados empíricos demonstram que o ML-Agent, construído sobre o GPT-4, resulta em melhorias adicionais. Código, dados e modelos estão disponíveis em https://ml-bench.github.io/.
English
Large language models have shown promising performance in code generation
benchmarks. However, a considerable divide exists between these benchmark
achievements and their practical applicability, primarily attributed to
real-world programming's reliance on pre-existing libraries. Instead of
evaluating LLMs to code from scratch, this work aims to propose a new
evaluation setup where LLMs use open-source libraries to finish machine
learning tasks. Therefore, we propose ML-Bench, an expansive benchmark
developed to assess the effectiveness of LLMs in leveraging existing functions
in open-source libraries. Consisting of 10044 samples spanning 130 tasks over
14 notable machine learning GitHub repositories. In this setting, given a
specific machine learning task instruction and the accompanying README in a
codebase, an LLM is tasked to generate code to accomplish the task. This
necessitates the comprehension of long and language-code interleaved documents,
as well as the understanding of complex cross-file code structures, introducing
new challenges. Notably, while GPT-4 exhibits remarkable improvement over other
LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space
for improvement. We address these challenges by proposing ML-Agent, designed to
effectively navigate the codebase, locate documentation, retrieve code, and
generate executable code. Empirical results demonstrate that ML-Agent, built
upon GPT-4, results in further improvements. Code, data, and models are
available at https://ml-bench.github.io/.