MLE-bench: Avaliando Agentes de Aprendizado de Máquina em Engenharia de Aprendizado de Máquina
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
October 9, 2024
Autores: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry
cs.AI
Resumo
Apresentamos o MLE-bench, um benchmark para medir o desempenho de agentes de IA em engenharia de aprendizado de máquina. Para isso, curamos 75 competições relacionadas à engenharia de ML do Kaggle, criando um conjunto diversificado de tarefas desafiadoras que testam habilidades reais de engenharia de ML no mundo real, como treinar modelos, preparar conjuntos de dados e executar experimentos. Estabelecemos baselines humanos para cada competição usando os rankings publicamente disponíveis do Kaggle. Utilizamos estruturas de agentes de código aberto para avaliar diversos modelos de linguagem de ponta em nosso benchmark, descobrindo que a configuração de melhor desempenho - o o1-preview da OpenAI com a estrutura AIDE - alcança pelo menos o nível de uma medalha de bronze do Kaggle em 16,9% das competições. Além de nossos principais resultados, investigamos várias formas de escalonamento de recursos para agentes de IA e o impacto da contaminação do pré-treinamento. Disponibilizamos o código do nosso benchmark de código aberto (github.com/openai/mle-bench/) para facilitar pesquisas futuras na compreensão das capacidades de engenharia de ML de agentes de IA.
English
We introduce MLE-bench, a benchmark for measuring how well AI agents perform
at machine learning engineering. To this end, we curate 75 ML
engineering-related competitions from Kaggle, creating a diverse set of
challenging tasks that test real-world ML engineering skills such as training
models, preparing datasets, and running experiments. We establish human
baselines for each competition using Kaggle's publicly available leaderboards.
We use open-source agent scaffolds to evaluate several frontier language models
on our benchmark, finding that the best-performing setup--OpenAI's o1-preview
with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in
16.9% of competitions. In addition to our main results, we investigate various
forms of resource scaling for AI agents and the impact of contamination from
pre-training. We open-source our benchmark code (github.com/openai/mle-bench/)
to facilitate future research in understanding the ML engineering capabilities
of AI agents.Summary
AI-Generated Summary