MLE-bench: Avaliando Agentes de Aprendizado de Máquina em Engenharia de Aprendizado de Máquina

Resumo

Apresentamos o MLE-bench, um benchmark para medir o desempenho de agentes de IA em engenharia de aprendizado de máquina. Para isso, curamos 75 competições relacionadas à engenharia de ML do Kaggle, criando um conjunto diversificado de tarefas desafiadoras que testam habilidades reais de engenharia de ML no mundo real, como treinar modelos, preparar conjuntos de dados e executar experimentos. Estabelecemos baselines humanos para cada competição usando os rankings publicamente disponíveis do Kaggle. Utilizamos estruturas de agentes de código aberto para avaliar diversos modelos de linguagem de ponta em nosso benchmark, descobrindo que a configuração de melhor desempenho - o o1-preview da OpenAI com a estrutura AIDE - alcança pelo menos o nível de uma medalha de bronze do Kaggle em 16,9% das competições. Além de nossos principais resultados, investigamos várias formas de escalonamento de recursos para agentes de IA e o impacto da contaminação do pré-treinamento. Disponibilizamos o código do nosso benchmark de código aberto (github.com/openai/mle-bench/) para facilitar pesquisas futuras na compreensão das capacidades de engenharia de ML de agentes de IA.

English

We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a diverse set of challenging tasks that test real-world ML engineering skills such as training models, preparing datasets, and running experiments. We establish human baselines for each competition using Kaggle's publicly available leaderboards. We use open-source agent scaffolds to evaluate several frontier language models on our benchmark, finding that the best-performing setup--OpenAI's o1-preview with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in 16.9% of competitions. In addition to our main results, we investigate various forms of resource scaling for AI agents and the impact of contamination from pre-training. We open-source our benchmark code (github.com/openai/mle-bench/) to facilitate future research in understanding the ML engineering capabilities of AI agents.

MLE-bench: Avaliando Agentes de Aprendizado de Máquina em Engenharia de Aprendizado de Máquina

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

Resumo

Support