MLE-bench: Evaluación de Agentes de Aprendizaje Automático en Ingeniería de Aprendizaje Automático
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
October 9, 2024
Autores: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry
cs.AI
Resumen
Presentamos MLE-bench, un banco de pruebas para medir el rendimiento de los agentes de IA en ingeniería de aprendizaje automático. Para ello, recopilamos 75 competiciones relacionadas con la ingeniería de ML de Kaggle, creando un conjunto diverso de tareas desafiantes que ponen a prueba habilidades de ingeniería de ML del mundo real como entrenar modelos, preparar conjuntos de datos y ejecutar experimentos. Establecemos líneas base humanas para cada competición utilizando las clasificaciones públicas de Kaggle. Utilizamos andamios de agentes de código abierto para evaluar varios modelos de lenguaje de vanguardia en nuestro banco de pruebas, encontrando que la configuración de mejor rendimiento, OpenAI's o1-preview con andamiaje AIDE, alcanza al menos el nivel de una medalla de bronce de Kaggle en el 16.9% de las competiciones. Además de nuestros resultados principales, investigamos diversas formas de escalado de recursos para agentes de IA y el impacto de la contaminación por pre-entrenamiento. Publicamos el código de nuestro banco de pruebas de código abierto (github.com/openai/mle-bench/) para facilitar investigaciones futuras en la comprensión de las capacidades de ingeniería de ML de los agentes de IA.
English
We introduce MLE-bench, a benchmark for measuring how well AI agents perform
at machine learning engineering. To this end, we curate 75 ML
engineering-related competitions from Kaggle, creating a diverse set of
challenging tasks that test real-world ML engineering skills such as training
models, preparing datasets, and running experiments. We establish human
baselines for each competition using Kaggle's publicly available leaderboards.
We use open-source agent scaffolds to evaluate several frontier language models
on our benchmark, finding that the best-performing setup--OpenAI's o1-preview
with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in
16.9% of competitions. In addition to our main results, we investigate various
forms of resource scaling for AI agents and the impact of contamination from
pre-training. We open-source our benchmark code (github.com/openai/mle-bench/)
to facilitate future research in understanding the ML engineering capabilities
of AI agents.Summary
AI-Generated Summary