MLGym: AI研究エージェントの進化を促進する新たなフレームワークとベンチマークMLGym: A New Framework and Benchmark for Advancing AI Research Agents
我々は、AI研究タスクにおけるLLMエージェントの評価と開発のための新しいフレームワークおよびベンチマークであるMeta MLGymとMLGym-Benchを紹介する。これは機械学習(ML)タスクのための初めてのGym環境であり、そのようなエージェントを訓練するための強化学習(RL)アルゴリズムの研究を可能にする。MLGym-Benchは、コンピュータビジョン、自然言語処理、強化学習、ゲーム理論など多様な領域からなる13の多様でオープンエンドなAI研究タスクで構成されている。これらのタスクを解決するには、新しいアイデアや仮説の生成、データの作成と処理、ML手法の実装、モデルの訓練、実験の実行、結果の分析、そして与えられたタスクを改善するためにこのプロセスを繰り返すといった、現実世界のAI研究スキルが必要である。我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proといった最先端の大規模言語モデル(LLM)をベンチマークで評価した。MLGymフレームワークは、新しいタスクの追加、モデルやエージェントの統合と評価、大規模な合成データの生成、およびAI研究タスクにおけるエージェントの訓練のための新しい学習アルゴリズムの開発を容易にする。我々は、現在の最先端モデルが与えられたベースラインを改善できるが、通常はより良いハイパーパラメータを見つけることであり、新しい仮説、アルゴリズム、アーキテクチャ、または大幅な改善を生み出すことはないことを発見した。我々は、LLMエージェントのAI研究能力を進歩させるための将来の研究を促進するために、フレームワークとベンチマークをオープンソースとして公開する。