ChatPaper.aiChatPaper

MLE-bench: Het evalueren van Machine Learning Agents op Machine Learning Engineering

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

October 9, 2024
Auteurs: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry
cs.AI

Samenvatting

We introduceren MLE-bench, een benchmark om te meten hoe goed AI-agenten presteren in machine learning engineering. Hiervoor selecteren we 75 ML-engineering-gerelateerde competities van Kaggle, waarbij we een gevarieerde set uitdagende taken samenstellen die echte ML-engineeringvaardigheden testen, zoals het trainen van modellen, het voorbereiden van datasets en het uitvoeren van experimenten. We stellen menselijke baselines vast voor elke competitie aan de hand van de publiekelijk beschikbare leaderboards van Kaggle. We gebruiken open-source agent-scaffolds om verschillende geavanceerde taalmodellen te evalueren op onze benchmark en ontdekken dat de best presterende setup - OpenAI's o1-preview met AIDE-scaffolding - minstens het niveau van een Kaggle-bronsmedaille behaalt in 16,9% van de competities. Naast onze belangrijkste resultaten onderzoeken we verschillende vormen van resource scaling voor AI-agenten en de impact van besmetting door pre-training. We maken onze benchmarkcode open-source (github.com/openai/mle-bench/) om toekomstig onderzoek naar het begrijpen van de ML-engineeringcapaciteiten van AI-agenten te vergemakkelijken.
English
We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a diverse set of challenging tasks that test real-world ML engineering skills such as training models, preparing datasets, and running experiments. We establish human baselines for each competition using Kaggle's publicly available leaderboards. We use open-source agent scaffolds to evaluate several frontier language models on our benchmark, finding that the best-performing setup--OpenAI's o1-preview with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in 16.9% of competitions. In addition to our main results, we investigate various forms of resource scaling for AI agents and the impact of contamination from pre-training. We open-source our benchmark code (github.com/openai/mle-bench/) to facilitate future research in understanding the ML engineering capabilities of AI agents.

Summary

AI-Generated Summary

PDF62November 16, 2024