ChatPaper.aiChatPaper

ML-Bench : Les grands modèles de langage exploitent des bibliothèques open-source pour les tâches de machine learning

ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks

November 16, 2023
Auteurs: Yuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun Shao, Zexuan Deng, Helan Hu, Zengxian Yang, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Zhengliang Li, Liang Chen, Yiming Zong, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI

Résumé

Les grands modèles de langage ont démontré des performances prometteuses dans les benchmarks de génération de code. Cependant, un écart considérable existe entre ces résultats de benchmarks et leur applicabilité pratique, principalement attribuable à la dépendance de la programmation réelle vis-à-vis des bibliothèques préexistantes. Au lieu d'évaluer les LLM à coder à partir de zéro, ce travail vise à proposer un nouveau cadre d'évaluation où les LLM utilisent des bibliothèques open-source pour accomplir des tâches de machine learning. Par conséquent, nous proposons ML-Bench, un benchmark étendu développé pour évaluer l'efficacité des LLM à exploiter les fonctions existantes dans les bibliothèques open-source. Il se compose de 10044 échantillons couvrant 130 tâches issues de 14 dépôts GitHub notables en machine learning. Dans ce cadre, étant donné une instruction spécifique de tâche de machine learning et le fichier README associé dans une base de code, un LLM est chargé de générer du code pour accomplir la tâche. Cela nécessite la compréhension de documents longs et entrelacés de langage et de code, ainsi que la compréhension de structures de code complexes réparties sur plusieurs fichiers, introduisant de nouveaux défis. Notamment, bien que GPT-4 montre une amélioration remarquable par rapport aux autres LLM, il ne parvient à accomplir que 39,73 % des tâches, laissant une grande marge d'amélioration. Nous abordons ces défis en proposant ML-Agent, conçu pour naviguer efficacement dans la base de code, localiser la documentation, récupérer du code et générer du code exécutable. Les résultats empiriques démontrent que ML-Agent, construit sur GPT-4, entraîne des améliorations supplémentaires. Le code, les données et les modèles sont disponibles à l'adresse https://ml-bench.github.io/.
English
Large language models have shown promising performance in code generation benchmarks. However, a considerable divide exists between these benchmark achievements and their practical applicability, primarily attributed to real-world programming's reliance on pre-existing libraries. Instead of evaluating LLMs to code from scratch, this work aims to propose a new evaluation setup where LLMs use open-source libraries to finish machine learning tasks. Therefore, we propose ML-Bench, an expansive benchmark developed to assess the effectiveness of LLMs in leveraging existing functions in open-source libraries. Consisting of 10044 samples spanning 130 tasks over 14 notable machine learning GitHub repositories. In this setting, given a specific machine learning task instruction and the accompanying README in a codebase, an LLM is tasked to generate code to accomplish the task. This necessitates the comprehension of long and language-code interleaved documents, as well as the understanding of complex cross-file code structures, introducing new challenges. Notably, while GPT-4 exhibits remarkable improvement over other LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space for improvement. We address these challenges by proposing ML-Agent, designed to effectively navigate the codebase, locate documentation, retrieve code, and generate executable code. Empirical results demonstrate that ML-Agent, built upon GPT-4, results in further improvements. Code, data, and models are available at https://ml-bench.github.io/.
PDF110December 15, 2024