ML-Bench: I Modelli Linguistici di Grande Dimensione Sfruttano Librerie Open-Source per Compiti di Apprendimento Automatico
ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks
November 16, 2023
Autori: Yuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun Shao, Zexuan Deng, Helan Hu, Zengxian Yang, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Zhengliang Li, Liang Chen, Yiming Zong, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI
Abstract
I modelli linguistici di grandi dimensioni hanno dimostrato prestazioni promettenti nei benchmark di generazione di codice. Tuttavia, esiste un divario considerevole tra questi risultati nei benchmark e la loro applicabilità pratica, attribuibile principalmente alla dipendenza della programmazione reale da librerie preesistenti. Invece di valutare i modelli linguistici di grandi dimensioni (LLM) nella scrittura di codice da zero, questo lavoro mira a proporre una nuova configurazione di valutazione in cui gli LLM utilizzano librerie open-source per completare compiti di apprendimento automatico. Pertanto, proponiamo ML-Bench, un benchmark esteso sviluppato per valutare l'efficacia degli LLM nell'utilizzo di funzioni esistenti nelle librerie open-source. ML-Bench è composto da 10044 campioni che coprono 130 compiti su 14 notevoli repository GitHub di apprendimento automatico. In questo contesto, dato un'istruzione specifica per un compito di apprendimento automatico e il relativo README in una codebase, un LLM è incaricato di generare il codice per completare il compito. Ciò richiede la comprensione di documenti lunghi e intervallati da codice, nonché la comprensione di strutture di codice complesse e interconnesse tra file, introducendo nuove sfide. È interessante notare che, sebbene GPT-4 mostri un miglioramento significativo rispetto ad altri LLM, riesce a completare solo il 39,73% dei compiti, lasciando un ampio margine di miglioramento. Affrontiamo queste sfide proponendo ML-Agent, progettato per navigare efficacemente nella codebase, individuare la documentazione, recuperare il codice e generare codice eseguibile. I risultati empirici dimostrano che ML-Agent, basato su GPT-4, porta a ulteriori miglioramenti. Codice, dati e modelli sono disponibili all'indirizzo https://ml-bench.github.io/.
English
Large language models have shown promising performance in code generation
benchmarks. However, a considerable divide exists between these benchmark
achievements and their practical applicability, primarily attributed to
real-world programming's reliance on pre-existing libraries. Instead of
evaluating LLMs to code from scratch, this work aims to propose a new
evaluation setup where LLMs use open-source libraries to finish machine
learning tasks. Therefore, we propose ML-Bench, an expansive benchmark
developed to assess the effectiveness of LLMs in leveraging existing functions
in open-source libraries. Consisting of 10044 samples spanning 130 tasks over
14 notable machine learning GitHub repositories. In this setting, given a
specific machine learning task instruction and the accompanying README in a
codebase, an LLM is tasked to generate code to accomplish the task. This
necessitates the comprehension of long and language-code interleaved documents,
as well as the understanding of complex cross-file code structures, introducing
new challenges. Notably, while GPT-4 exhibits remarkable improvement over other
LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space
for improvement. We address these challenges by proposing ML-Agent, designed to
effectively navigate the codebase, locate documentation, retrieve code, and
generate executable code. Empirical results demonstrate that ML-Agent, built
upon GPT-4, results in further improvements. Code, data, and models are
available at https://ml-bench.github.io/.