MLE-bench: 機械学習エージェントの機械学習エンジニアリングにおける評価
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
October 9, 2024
著者: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry
cs.AI
要旨
AIエージェントの機械学習エンジニアリングにおけるパフォーマンスをどのように測定するかを評価するためのベンチマークであるMLE-benchを紹介します。このために、Kaggleから75の機械学習エンジニアリングに関連する競技会を収集し、モデルのトレーニング、データセットの準備、実験の実行など、実世界の機械学習エンジニアリングスキルをテストする様々な難しいタスクを作成しました。各競技会について、Kaggleの公開されているリーダーボードを使用して人間のベースラインを確立しました。また、オープンソースのエージェントスキャフォールドを使用して、複数の最先端言語モデルを当社のベンチマークで評価し、最も優れたセットアップであるOpenAIのo1-previewとAIDEスキャフォールディングを使用すると、競技会の16.9%で少なくともKaggleのブロンズメダルのレベルに到達することが分かりました。主な結果に加えて、AIエージェントのリソーススケーリングのさまざまな形式や事前トレーニングからの汚染の影響について調査しました。AIエージェントの機械学習エンジニアリング能力を理解するための将来の研究を促進するために、当社のベンチマークコード(github.com/openai/mle-bench/)をオープンソースで公開しています。
English
We introduce MLE-bench, a benchmark for measuring how well AI agents perform
at machine learning engineering. To this end, we curate 75 ML
engineering-related competitions from Kaggle, creating a diverse set of
challenging tasks that test real-world ML engineering skills such as training
models, preparing datasets, and running experiments. We establish human
baselines for each competition using Kaggle's publicly available leaderboards.
We use open-source agent scaffolds to evaluate several frontier language models
on our benchmark, finding that the best-performing setup--OpenAI's o1-preview
with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in
16.9% of competitions. In addition to our main results, we investigate various
forms of resource scaling for AI agents and the impact of contamination from
pre-training. We open-source our benchmark code (github.com/openai/mle-bench/)
to facilitate future research in understanding the ML engineering capabilities
of AI agents.Summary
AI-Generated Summary