ChatPaper.aiChatPaper

ML-Bench: Grote Taalmodellen Benutten Open-source Bibliotheken voor Machine Learning Taken

ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks

November 16, 2023
Auteurs: Yuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun Shao, Zexuan Deng, Helan Hu, Zengxian Yang, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Zhengliang Li, Liang Chen, Yiming Zong, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI

Samenvatting

Grote taalmodellen hebben veelbelovende prestaties getoond in benchmarks voor codegeneratie. Er bestaat echter een aanzienlijke kloof tussen deze benchmarkresultaten en hun praktische toepasbaarheid, voornamelijk toe te schrijven aan de afhankelijkheid van real-world programmeren van bestaande bibliotheken. In plaats van LLM's te evalueren op het schrijven van code vanaf nul, stelt dit werk voor om een nieuwe evaluatieopzet te introduceren waarin LLM's open-source bibliotheken gebruiken om machine learning taken te voltooien. Daarom stellen we ML-Bench voor, een uitgebreide benchmark ontwikkeld om de effectiviteit van LLM's te beoordelen bij het benutten van bestaande functies in open-source bibliotheken. Deze bestaat uit 10044 samples verspreid over 130 taken in 14 opmerkelijke machine learning GitHub repositories. In deze opzet krijgt een LLM, gegeven een specifieke machine learning taakinstructie en de bijbehorende README in een codebase, de opdracht om code te genereren om de taak te voltooien. Dit vereist het begrijpen van lange, taal-code verweven documenten, evenals het begrijpen van complexe cross-file codestructuren, wat nieuwe uitdagingen introduceert. Opmerkelijk is dat GPT-4, hoewel het een opmerkelijke verbetering laat zien ten opzichte van andere LLM's, slechts 39,73% van de taken weet te voltooien, wat ruimte laat voor verdere verbetering. We pakken deze uitdagingen aan door ML-Agent voor te stellen, ontworpen om effectief door de codebase te navigeren, documentatie te lokaliseren, code op te halen en uitvoerbare code te genereren. Empirische resultaten tonen aan dat ML-Agent, gebouwd op GPT-4, tot verdere verbeteringen leidt. Code, data en modellen zijn beschikbaar op https://ml-bench.github.io/.
English
Large language models have shown promising performance in code generation benchmarks. However, a considerable divide exists between these benchmark achievements and their practical applicability, primarily attributed to real-world programming's reliance on pre-existing libraries. Instead of evaluating LLMs to code from scratch, this work aims to propose a new evaluation setup where LLMs use open-source libraries to finish machine learning tasks. Therefore, we propose ML-Bench, an expansive benchmark developed to assess the effectiveness of LLMs in leveraging existing functions in open-source libraries. Consisting of 10044 samples spanning 130 tasks over 14 notable machine learning GitHub repositories. In this setting, given a specific machine learning task instruction and the accompanying README in a codebase, an LLM is tasked to generate code to accomplish the task. This necessitates the comprehension of long and language-code interleaved documents, as well as the understanding of complex cross-file code structures, introducing new challenges. Notably, while GPT-4 exhibits remarkable improvement over other LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space for improvement. We address these challenges by proposing ML-Agent, designed to effectively navigate the codebase, locate documentation, retrieve code, and generate executable code. Empirical results demonstrate that ML-Agent, built upon GPT-4, results in further improvements. Code, data, and models are available at https://ml-bench.github.io/.
PDF110December 15, 2024