MLE-bench: 기계 학습 에이전트를 기계 학습 공학에서 평가하기

초록

우리는 MLE-bench를 소개합니다. 이는 AI 에이전트가 기계 학습 엔지니어링에서 얼마나 잘 수행되는지 측정하는 벤치마크입니다. 이를 위해 Kaggle에서 75개의 ML 엔지니어링 관련 대회를 선별하여 실제 세계의 ML 엔지니어링 기술을 테스트하는 다양한 도전적인 작업을 만들었습니다. 이 작업은 모델 훈련, 데이터셋 준비, 실험 실행 등을 테스트합니다. 우리는 Kaggle의 공개 리더보드를 사용하여 각 대회에 대한 인간 베이스라인을 수립했습니다. 우리는 오픈소스 에이전트 스캐폴드를 사용하여 여러 최첨단 언어 모델을 우리의 벤치마크에서 평가했으며, 최고의 성능을 보인 설정인 OpenAI의 o1-preview와 AIDE 스캐폴딩이 대회의 16.9%에서 적어도 Kaggle 브론즈 메달 수준을 달성했습니다. 우리의 주요 결과뿐만 아니라, AI 에이전트의 자원 확장 형태와 사전 훈련으로 인한 오염의 영향을 조사했습니다. 우리는 AI 에이전트의 ML 엔지니어링 능력을 이해하기 위한 미래 연구를 촉진하기 위해 우리의 벤치마크 코드(github.com/openai/mle-bench/)를 오픈소스로 공개합니다.

English

We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a diverse set of challenging tasks that test real-world ML engineering skills such as training models, preparing datasets, and running experiments. We establish human baselines for each competition using Kaggle's publicly available leaderboards. We use open-source agent scaffolds to evaluate several frontier language models on our benchmark, finding that the best-performing setup--OpenAI's o1-preview with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in 16.9% of competitions. In addition to our main results, we investigate various forms of resource scaling for AI agents and the impact of contamination from pre-training. We open-source our benchmark code (github.com/openai/mle-bench/) to facilitate future research in understanding the ML engineering capabilities of AI agents.

MLE-bench: 기계 학습 에이전트를 기계 학습 공학에서 평가하기

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

초록

Support