ChatPaper.aiChatPaper

MLE-Bench: Evaluierung von maschinellen Lernagenten im Bereich des maschinellen Lernens.

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

October 9, 2024
Autoren: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry
cs.AI

Zusammenfassung

Wir stellen MLE-bench vor, ein Benchmark zur Messung der Leistungsfähigkeit von KI-Agenten im Bereich des maschinellen Lernens. Zu diesem Zweck kuratieren wir 75 ML-Engineering-bezogene Wettbewerbe von Kaggle und schaffen eine vielfältige Sammlung herausfordernder Aufgaben, die reale ML-Engineering-Fähigkeiten wie das Trainieren von Modellen, die Vorbereitung von Datensätzen und das Durchführen von Experimenten testen. Wir legen menschliche Baselines für jeden Wettbewerb fest, indem wir Kaggle's öffentlich verfügbare Bestenlisten verwenden. Wir verwenden Open-Source-Agentengerüste, um mehrere führende Sprachmodelle auf unserem Benchmark zu bewerten und stellen fest, dass die am besten abschneidende Konfiguration - OpenAI's o1-preview mit AIDE-Gerüst - in 16,9% der Wettbewerbe mindestens das Niveau einer Kaggle-Bronzemedaille erreicht. Neben unseren Hauptergebnissen untersuchen wir verschiedene Formen der Ressourcenskalierung für KI-Agenten und den Einfluss von Verunreinigungen durch Vor-Training. Wir stellen unseren Benchmark-Code (github.com/openai/mle-bench/) als Open Source zur Verfügung, um zukünftige Forschungen zur Verständnis der ML-Engineering-Fähigkeiten von KI-Agenten zu erleichtern.
English
We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a diverse set of challenging tasks that test real-world ML engineering skills such as training models, preparing datasets, and running experiments. We establish human baselines for each competition using Kaggle's publicly available leaderboards. We use open-source agent scaffolds to evaluate several frontier language models on our benchmark, finding that the best-performing setup--OpenAI's o1-preview with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in 16.9% of competitions. In addition to our main results, we investigate various forms of resource scaling for AI agents and the impact of contamination from pre-training. We open-source our benchmark code (github.com/openai/mle-bench/) to facilitate future research in understanding the ML engineering capabilities of AI agents.

Summary

AI-Generated Summary

PDF62November 16, 2024