ML-Bench: Große Sprachmodelle nutzen Open-Source-Bibliotheken für maschinelle Lernaufgaben
ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks
November 16, 2023
papers.authors: Yuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun Shao, Zexuan Deng, Helan Hu, Zengxian Yang, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Zhengliang Li, Liang Chen, Yiming Zong, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI
papers.abstract
Große Sprachmodelle haben vielversprechende Leistungen in Code-Generierungs-Benchmarks gezeigt. Es besteht jedoch eine beträchtliche Kluft zwischen diesen Benchmark-Ergebnissen und ihrer praktischen Anwendbarkeit, die hauptsächlich auf die Abhängigkeit der realen Programmierung von bestehenden Bibliotheken zurückzuführen ist. Anstatt LLMs (Large Language Models) zu bewerten, die Code von Grund auf erstellen, zielt diese Arbeit darauf ab, ein neues Bewertungsszenario vorzuschlagen, in dem LLMs Open-Source-Bibliotheken nutzen, um maschinelle Lernaufgaben zu erledigen. Daher schlagen wir ML-Bench vor, einen umfangreichen Benchmark, der entwickelt wurde, um die Effektivität von LLMs bei der Nutzung bestehender Funktionen in Open-Source-Bibliotheken zu bewerten. Er besteht aus 10044 Beispielen, die 130 Aufgaben über 14 bemerkenswerte Machine-Learning-GitHub-Repositories umfassen. In diesem Szenario wird einem LLM bei einer spezifischen Machine-Learning-Aufgabenstellung und der begleitenden README-Datei in einem Codebase die Aufgabe gestellt, Code zu generieren, um die Aufgabe zu erfüllen. Dies erfordert das Verständnis von langen und sprachlich mit Code verwobenen Dokumenten sowie das Verständnis komplexer, dateiübergreifender Codestrukturen, was neue Herausforderungen mit sich bringt. Bemerkenswerterweise zeigt GPT-4 zwar eine bemerkenswerte Verbesserung gegenüber anderen LLMs, schafft es jedoch nur 39,73 % der Aufgaben zu bewältigen, was einen großen Raum für Verbesserungen lässt. Wir gehen auf diese Herausforderungen ein, indem wir ML-Agent vorschlagen, der darauf ausgelegt ist, effektiv durch das Codebase zu navigieren, Dokumentation zu finden, Code abzurufen und ausführbaren Code zu generieren. Empirische Ergebnisse zeigen, dass ML-Agent, basierend auf GPT-4, weitere Verbesserungen bewirkt. Code, Daten und Modelle sind unter https://ml-bench.github.io/ verfügbar.
English
Large language models have shown promising performance in code generation
benchmarks. However, a considerable divide exists between these benchmark
achievements and their practical applicability, primarily attributed to
real-world programming's reliance on pre-existing libraries. Instead of
evaluating LLMs to code from scratch, this work aims to propose a new
evaluation setup where LLMs use open-source libraries to finish machine
learning tasks. Therefore, we propose ML-Bench, an expansive benchmark
developed to assess the effectiveness of LLMs in leveraging existing functions
in open-source libraries. Consisting of 10044 samples spanning 130 tasks over
14 notable machine learning GitHub repositories. In this setting, given a
specific machine learning task instruction and the accompanying README in a
codebase, an LLM is tasked to generate code to accomplish the task. This
necessitates the comprehension of long and language-code interleaved documents,
as well as the understanding of complex cross-file code structures, introducing
new challenges. Notably, while GPT-4 exhibits remarkable improvement over other
LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space
for improvement. We address these challenges by proposing ML-Agent, designed to
effectively navigate the codebase, locate documentation, retrieve code, and
generate executable code. Empirical results demonstrate that ML-Agent, built
upon GPT-4, results in further improvements. Code, data, and models are
available at https://ml-bench.github.io/.