MLGym: AI 연구 에이전트 발전을 위한 새로운 프레임워크 및 벤치마크
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
February 20, 2025
저자: Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu
cs.AI
초록
우리는 AI 연구 과제에서 LLM 에이전트를 평가하고 개발하기 위한 새로운 프레임워크 및 벤치마크인 Meta MLGym과 MLGym-Bench를 소개합니다. 이는 머신러닝(ML) 과제를 위한 최초의 Gym 환경으로, 이러한 에이전트를 훈련하기 위한 강화학습(RL) 알고리즘 연구를 가능하게 합니다. MLGym-Bench는 컴퓨터 비전, 자연어 처리, 강화학습, 게임 이론 등 다양한 분야에서 선별된 13개의 다양하고 개방형 AI 연구 과제로 구성됩니다. 이러한 과제를 해결하기 위해서는 새로운 아이디어와 가설 생성, 데이터 생성 및 처리, ML 방법 구현, 모델 훈련, 실험 실행, 결과 분석, 그리고 주어진 과제를 개선하기 위한 반복적 과정과 같은 실제 AI 연구 기술이 요구됩니다. 우리는 Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, Gemini-1.5 Pro 등 여러 최첨단 대형 언어 모델(LLM)을 벤치마크에서 평가했습니다. MLGym 프레임워크는 새로운 과제 추가, 모델 또는 에이전트 통합 및 평가, 대규모 합성 데이터 생성, 그리고 AI 연구 과제에서 에이전트를 훈련하기 위한 새로운 학습 알고리즘 개발을 용이하게 합니다. 우리는 현재의 최첨단 모델들이 주어진 기준선을 개선할 수 있지만, 이는 주로 더 나은 하이퍼파라미터를 찾는 데 그치며, 새로운 가설, 알고리즘, 아키텍처 또는 상당한 개선을 생성하지는 못한다는 것을 발견했습니다. 우리는 LLM 에이전트의 AI 연구 역량을 발전시키기 위한 미래 연구를 촉진하기 위해 이 프레임워크와 벤치마크를 오픈소스로 공개합니다.
English
We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for
evaluating and developing LLM agents on AI research tasks. This is the first
Gym environment for machine learning (ML) tasks, enabling research on
reinforcement learning (RL) algorithms for training such agents. MLGym-bench
consists of 13 diverse and open-ended AI research tasks from diverse domains
such as computer vision, natural language processing, reinforcement learning,
and game theory. Solving these tasks requires real-world AI research skills
such as generating new ideas and hypotheses, creating and processing data,
implementing ML methods, training models, running experiments, analyzing the
results, and iterating through this process to improve on a given task. We
evaluate a number of frontier large language models (LLMs) on our benchmarks
such as Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, and Gemini-1.5
Pro. Our MLGym framework makes it easy to add new tasks, integrate and evaluate
models or agents, generate synthetic data at scale, as well as develop new
learning algorithms for training agents on AI research tasks. We find that
current frontier models can improve on the given baselines, usually by finding
better hyperparameters, but do not generate novel hypotheses, algorithms,
architectures, or substantial improvements. We open-source our framework and
benchmark to facilitate future research in advancing the AI research
capabilities of LLM agents.Summary
AI-Generated Summary