ML-Bench: Крупные языковые модели используют открытые библиотеки для выполнения задач машинного обучения

Аннотация

Крупные языковые модели продемонстрировали многообещающие результаты в тестах на генерацию кода. Однако существует значительный разрыв между этими достижениями в тестах и их практической применимостью, что в первую очередь связано с зависимостью реального программирования от существующих библиотек. Вместо оценки способности языковых моделей писать код с нуля, данная работа предлагает новую схему оценки, в которой языковые модели используют открытые библиотеки для выполнения задач машинного обучения. В связи с этим мы представляем ML-Bench — обширный бенчмарк, разработанный для оценки эффективности языковых моделей в использовании существующих функций из открытых библиотек. Он включает 10044 образца, охватывающих 130 задач из 14 известных репозиториев машинного обучения на GitHub. В данной схеме языковая модель получает инструкцию по конкретной задаче машинного обучения и сопровождающий её файл README из кодовой базы, после чего должна сгенерировать код для выполнения задачи. Это требует понимания длинных документов, содержащих переплетение текста и кода, а также сложных межфайловых структур кода, что создаёт новые вызовы. Примечательно, что, хотя GPT-4 демонстрирует значительное улучшение по сравнению с другими языковыми моделями, она справляется только с 39,73% задач, оставляя огромное пространство для улучшений. Мы решаем эти задачи, предлагая ML-Agent, который эффективно ориентируется в кодовой базе, находит документацию, извлекает код и генерирует исполняемый код. Эмпирические результаты показывают, что ML-Agent, построенный на основе GPT-4, приводит к дальнейшим улучшениям. Код, данные и модели доступны по адресу https://ml-bench.github.io/.

English

Large language models have shown promising performance in code generation benchmarks. However, a considerable divide exists between these benchmark achievements and their practical applicability, primarily attributed to real-world programming's reliance on pre-existing libraries. Instead of evaluating LLMs to code from scratch, this work aims to propose a new evaluation setup where LLMs use open-source libraries to finish machine learning tasks. Therefore, we propose ML-Bench, an expansive benchmark developed to assess the effectiveness of LLMs in leveraging existing functions in open-source libraries. Consisting of 10044 samples spanning 130 tasks over 14 notable machine learning GitHub repositories. In this setting, given a specific machine learning task instruction and the accompanying README in a codebase, an LLM is tasked to generate code to accomplish the task. This necessitates the comprehension of long and language-code interleaved documents, as well as the understanding of complex cross-file code structures, introducing new challenges. Notably, while GPT-4 exhibits remarkable improvement over other LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space for improvement. We address these challenges by proposing ML-Agent, designed to effectively navigate the codebase, locate documentation, retrieve code, and generate executable code. Empirical results demonstrate that ML-Agent, built upon GPT-4, results in further improvements. Code, data, and models are available at https://ml-bench.github.io/.

ML-Bench: Крупные языковые модели используют открытые библиотеки для выполнения задач машинного обучения

ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks

Аннотация

Support