ChatPaper.aiChatPaper

MLE-bench : Évaluation des agents d'apprentissage automatique sur l'ingénierie de l'apprentissage automatique

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

October 9, 2024
Auteurs: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry
cs.AI

Résumé

Nous présentons MLE-bench, un banc d'essai pour mesurer la performance des agents d'IA en ingénierie de l'apprentissage automatique. À cette fin, nous sélectionnons avec soin 75 compétitions liées à l'ingénierie de l'apprentissage automatique sur Kaggle, créant un ensemble diversifié de tâches stimulantes qui évaluent les compétences en ingénierie de l'apprentissage automatique du monde réel telles que l'entraînement de modèles, la préparation de jeux de données et l'exécution d'expériences. Nous établissons des références humaines pour chaque compétition en utilisant les tableaux de classement publiquement disponibles de Kaggle. Nous utilisons des échafaudages d'agents open-source pour évaluer plusieurs modèles de langage de pointe sur notre banc d'essai, constatant que la configuration la plus performante - OpenAI's o1-preview avec l'échafaudage AIDE - atteint au moins le niveau d'une médaille de bronze Kaggle dans 16,9 % des compétitions. En plus de nos principaux résultats, nous examinons diverses formes de mise à l'échelle des ressources pour les agents d'IA et l'impact de la contamination par le pré-entraînement. Nous mettons notre code de banc d'essai en open-source (github.com/openai/mle-bench/) pour faciliter les futures recherches visant à comprendre les capacités en ingénierie de l'apprentissage automatique des agents d'IA.
English
We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a diverse set of challenging tasks that test real-world ML engineering skills such as training models, preparing datasets, and running experiments. We establish human baselines for each competition using Kaggle's publicly available leaderboards. We use open-source agent scaffolds to evaluate several frontier language models on our benchmark, finding that the best-performing setup--OpenAI's o1-preview with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in 16.9% of competitions. In addition to our main results, we investigate various forms of resource scaling for AI agents and the impact of contamination from pre-training. We open-source our benchmark code (github.com/openai/mle-bench/) to facilitate future research in understanding the ML engineering capabilities of AI agents.

Summary

AI-Generated Summary

PDF62November 16, 2024