MLGym: AI研究エージェントの進化を促進する新たなフレームワークとベンチマーク
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
February 20, 2025
著者: Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu
cs.AI
要旨
我々は、AI研究タスクにおけるLLMエージェントの評価と開発のための新しいフレームワークおよびベンチマークであるMeta MLGymとMLGym-Benchを紹介する。これは機械学習(ML)タスクのための初めてのGym環境であり、そのようなエージェントを訓練するための強化学習(RL)アルゴリズムの研究を可能にする。MLGym-Benchは、コンピュータビジョン、自然言語処理、強化学習、ゲーム理論など多様な領域からなる13の多様でオープンエンドなAI研究タスクで構成されている。これらのタスクを解決するには、新しいアイデアや仮説の生成、データの作成と処理、ML手法の実装、モデルの訓練、実験の実行、結果の分析、そして与えられたタスクを改善するためにこのプロセスを繰り返すといった、現実世界のAI研究スキルが必要である。我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proといった最先端の大規模言語モデル(LLM)をベンチマークで評価した。MLGymフレームワークは、新しいタスクの追加、モデルやエージェントの統合と評価、大規模な合成データの生成、およびAI研究タスクにおけるエージェントの訓練のための新しい学習アルゴリズムの開発を容易にする。我々は、現在の最先端モデルが与えられたベースラインを改善できるが、通常はより良いハイパーパラメータを見つけることであり、新しい仮説、アルゴリズム、アーキテクチャ、または大幅な改善を生み出すことはないことを発見した。我々は、LLMエージェントのAI研究能力を進歩させるための将来の研究を促進するために、フレームワークとベンチマークをオープンソースとして公開する。
English
We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for
evaluating and developing LLM agents on AI research tasks. This is the first
Gym environment for machine learning (ML) tasks, enabling research on
reinforcement learning (RL) algorithms for training such agents. MLGym-bench
consists of 13 diverse and open-ended AI research tasks from diverse domains
such as computer vision, natural language processing, reinforcement learning,
and game theory. Solving these tasks requires real-world AI research skills
such as generating new ideas and hypotheses, creating and processing data,
implementing ML methods, training models, running experiments, analyzing the
results, and iterating through this process to improve on a given task. We
evaluate a number of frontier large language models (LLMs) on our benchmarks
such as Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, and Gemini-1.5
Pro. Our MLGym framework makes it easy to add new tasks, integrate and evaluate
models or agents, generate synthetic data at scale, as well as develop new
learning algorithms for training agents on AI research tasks. We find that
current frontier models can improve on the given baselines, usually by finding
better hyperparameters, but do not generate novel hypotheses, algorithms,
architectures, or substantial improvements. We open-source our framework and
benchmark to facilitate future research in advancing the AI research
capabilities of LLM agents.Summary
AI-Generated Summary