ML-Bench: I Modelli Linguistici di Grande Dimensione Sfruttano Librerie Open-Source per Compiti di Apprendimento Automatico

Abstract

I modelli linguistici di grandi dimensioni hanno dimostrato prestazioni promettenti nei benchmark di generazione di codice. Tuttavia, esiste un divario considerevole tra questi risultati nei benchmark e la loro applicabilità pratica, attribuibile principalmente alla dipendenza della programmazione reale da librerie preesistenti. Invece di valutare i modelli linguistici di grandi dimensioni (LLM) nella scrittura di codice da zero, questo lavoro mira a proporre una nuova configurazione di valutazione in cui gli LLM utilizzano librerie open-source per completare compiti di apprendimento automatico. Pertanto, proponiamo ML-Bench, un benchmark esteso sviluppato per valutare l'efficacia degli LLM nell'utilizzo di funzioni esistenti nelle librerie open-source. ML-Bench è composto da 10044 campioni che coprono 130 compiti su 14 notevoli repository GitHub di apprendimento automatico. In questo contesto, dato un'istruzione specifica per un compito di apprendimento automatico e il relativo README in una codebase, un LLM è incaricato di generare il codice per completare il compito. Ciò richiede la comprensione di documenti lunghi e intervallati da codice, nonché la comprensione di strutture di codice complesse e interconnesse tra file, introducendo nuove sfide. È interessante notare che, sebbene GPT-4 mostri un miglioramento significativo rispetto ad altri LLM, riesce a completare solo il 39,73% dei compiti, lasciando un ampio margine di miglioramento. Affrontiamo queste sfide proponendo ML-Agent, progettato per navigare efficacemente nella codebase, individuare la documentazione, recuperare il codice e generare codice eseguibile. I risultati empirici dimostrano che ML-Agent, basato su GPT-4, porta a ulteriori miglioramenti. Codice, dati e modelli sono disponibili all'indirizzo https://ml-bench.github.io/.

English

Large language models have shown promising performance in code generation benchmarks. However, a considerable divide exists between these benchmark achievements and their practical applicability, primarily attributed to real-world programming's reliance on pre-existing libraries. Instead of evaluating LLMs to code from scratch, this work aims to propose a new evaluation setup where LLMs use open-source libraries to finish machine learning tasks. Therefore, we propose ML-Bench, an expansive benchmark developed to assess the effectiveness of LLMs in leveraging existing functions in open-source libraries. Consisting of 10044 samples spanning 130 tasks over 14 notable machine learning GitHub repositories. In this setting, given a specific machine learning task instruction and the accompanying README in a codebase, an LLM is tasked to generate code to accomplish the task. This necessitates the comprehension of long and language-code interleaved documents, as well as the understanding of complex cross-file code structures, introducing new challenges. Notably, while GPT-4 exhibits remarkable improvement over other LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space for improvement. We address these challenges by proposing ML-Agent, designed to effectively navigate the codebase, locate documentation, retrieve code, and generate executable code. Empirical results demonstrate that ML-Agent, built upon GPT-4, results in further improvements. Code, data, and models are available at https://ml-bench.github.io/.

ML-Bench: I Modelli Linguistici di Grande Dimensione Sfruttano Librerie Open-Source per Compiti di Apprendimento Automatico

ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks

Abstract

Support