ML-Bench: Крупные языковые модели используют открытые библиотеки для выполнения задач машинного обучения
ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks
November 16, 2023
Авторы: Yuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun Shao, Zexuan Deng, Helan Hu, Zengxian Yang, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Zhengliang Li, Liang Chen, Yiming Zong, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI
Аннотация
Крупные языковые модели продемонстрировали многообещающие результаты в тестах на генерацию кода. Однако существует значительный разрыв между этими достижениями в тестах и их практической применимостью, что в первую очередь связано с зависимостью реального программирования от существующих библиотек. Вместо оценки способности языковых моделей писать код с нуля, данная работа предлагает новую схему оценки, в которой языковые модели используют открытые библиотеки для выполнения задач машинного обучения. В связи с этим мы представляем ML-Bench — обширный бенчмарк, разработанный для оценки эффективности языковых моделей в использовании существующих функций из открытых библиотек. Он включает 10044 образца, охватывающих 130 задач из 14 известных репозиториев машинного обучения на GitHub. В данной схеме языковая модель получает инструкцию по конкретной задаче машинного обучения и сопровождающий её файл README из кодовой базы, после чего должна сгенерировать код для выполнения задачи. Это требует понимания длинных документов, содержащих переплетение текста и кода, а также сложных межфайловых структур кода, что создаёт новые вызовы. Примечательно, что, хотя GPT-4 демонстрирует значительное улучшение по сравнению с другими языковыми моделями, она справляется только с 39,73% задач, оставляя огромное пространство для улучшений. Мы решаем эти задачи, предлагая ML-Agent, который эффективно ориентируется в кодовой базе, находит документацию, извлекает код и генерирует исполняемый код. Эмпирические результаты показывают, что ML-Agent, построенный на основе GPT-4, приводит к дальнейшим улучшениям. Код, данные и модели доступны по адресу https://ml-bench.github.io/.
English
Large language models have shown promising performance in code generation
benchmarks. However, a considerable divide exists between these benchmark
achievements and their practical applicability, primarily attributed to
real-world programming's reliance on pre-existing libraries. Instead of
evaluating LLMs to code from scratch, this work aims to propose a new
evaluation setup where LLMs use open-source libraries to finish machine
learning tasks. Therefore, we propose ML-Bench, an expansive benchmark
developed to assess the effectiveness of LLMs in leveraging existing functions
in open-source libraries. Consisting of 10044 samples spanning 130 tasks over
14 notable machine learning GitHub repositories. In this setting, given a
specific machine learning task instruction and the accompanying README in a
codebase, an LLM is tasked to generate code to accomplish the task. This
necessitates the comprehension of long and language-code interleaved documents,
as well as the understanding of complex cross-file code structures, introducing
new challenges. Notably, while GPT-4 exhibits remarkable improvement over other
LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space
for improvement. We address these challenges by proposing ML-Agent, designed to
effectively navigate the codebase, locate documentation, retrieve code, and
generate executable code. Empirical results demonstrate that ML-Agent, built
upon GPT-4, results in further improvements. Code, data, and models are
available at https://ml-bench.github.io/.