MLE-bench: Valutazione degli Agenti di Apprendimento Automatico sull'Ingegneria dell'Apprendimento Automatico
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
October 9, 2024
Autori: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry
cs.AI
Abstract
Introduciamo MLE-bench, un benchmark per misurare quanto bene si comportano gli agenti di intelligenza artificiale nell'ingegneria del machine learning. A tal fine, selezioniamo attentamente 75 competizioni legate all'ingegneria del ML da Kaggle, creando un insieme diversificato di compiti impegnativi che mettono alla prova le competenze di ingegneria del ML nel mondo reale come addestrare modelli, preparare set di dati ed eseguire esperimenti. Stabiliamo basi umane per ciascuna competizione utilizzando le classifiche pubblicamente disponibili di Kaggle. Utilizziamo impalcature di agenti open-source per valutare diversi modelli linguistici di frontiera sul nostro benchmark, scoprendo che la configurazione più performante - l'anteprima o1 di OpenAI con impalcatura AIDE - raggiunge almeno il livello di una medaglia di bronzo di Kaggle nel 16,9% delle competizioni. Oltre ai nostri risultati principali, esaminiamo varie forme di ridimensionamento delle risorse per gli agenti di intelligenza artificiale e l'impatto della contaminazione derivante dal pre-addestramento. Rendiamo open-source il codice del nostro benchmark (github.com/openai/mle-bench/) per agevolare futura ricerca nell'ambito della comprensione delle capacità di ingegneria del ML degli agenti di intelligenza artificiale.
English
We introduce MLE-bench, a benchmark for measuring how well AI agents perform
at machine learning engineering. To this end, we curate 75 ML
engineering-related competitions from Kaggle, creating a diverse set of
challenging tasks that test real-world ML engineering skills such as training
models, preparing datasets, and running experiments. We establish human
baselines for each competition using Kaggle's publicly available leaderboards.
We use open-source agent scaffolds to evaluate several frontier language models
on our benchmark, finding that the best-performing setup--OpenAI's o1-preview
with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in
16.9% of competitions. In addition to our main results, we investigate various
forms of resource scaling for AI agents and the impact of contamination from
pre-training. We open-source our benchmark code (github.com/openai/mle-bench/)
to facilitate future research in understanding the ML engineering capabilities
of AI agents.