MLE-bench: Оценка агентов машинного обучения в области инженерии машинного обучения
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
October 9, 2024
Авторы: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry
cs.AI
Аннотация
Мы представляем MLE-bench, набор данных для измерения производительности искусственного интеллекта в области инженерии машинного обучения. Для этого мы отбираем 75 соревнований, связанных с инженерией машинного обучения на платформе Kaggle, создавая разнообразный набор сложных задач, проверяющих навыки инженерии машинного обучения в реальном мире, такие как обучение моделей, подготовка наборов данных и проведение экспериментов. Мы устанавливаем базовые уровни для каждого соревнования, используя общедоступные таблицы лидеров Kaggle. Мы используем агентские каркасы с открытым исходным кодом для оценки нескольких передовых языковых моделей на нашем наборе данных, обнаруживая, что наилучшая конфигурация - o1-preview от OpenAI с каркасом AIDE - достигает по меньшей мере уровня бронзовой медали Kaggle в 16,9% соревнований. Помимо основных результатов, мы исследуем различные формы масштабирования ресурсов для искусственного интеллекта и влияние загрязнения от предварительного обучения. Мы предоставляем наш код набора данных с открытым исходным кодом (github.com/openai/mle-bench/), чтобы облегчить будущие исследования в понимании возможностей инженерии машинного обучения искусственного интеллекта.
English
We introduce MLE-bench, a benchmark for measuring how well AI agents perform
at machine learning engineering. To this end, we curate 75 ML
engineering-related competitions from Kaggle, creating a diverse set of
challenging tasks that test real-world ML engineering skills such as training
models, preparing datasets, and running experiments. We establish human
baselines for each competition using Kaggle's publicly available leaderboards.
We use open-source agent scaffolds to evaluate several frontier language models
on our benchmark, finding that the best-performing setup--OpenAI's o1-preview
with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in
16.9% of competitions. In addition to our main results, we investigate various
forms of resource scaling for AI agents and the impact of contamination from
pre-training. We open-source our benchmark code (github.com/openai/mle-bench/)
to facilitate future research in understanding the ML engineering capabilities
of AI agents.Summary
AI-Generated Summary