MLGym:推動AI研究智能體發展的新框架與基準平台MLGym: A New Framework and Benchmark for Advancing AI Research Agents
我們推出了Meta MLGym和MLGym-Bench,這是一個用於評估和開發LLM(大型語言模型)代理在AI研究任務上的新框架和基準。這是首個專為機器學習(ML)任務設計的Gym環境,旨在促進針對訓練此類代理的強化學習(RL)算法的研究。MLGym-Bench包含了來自計算機視覺、自然語言處理、強化學習及博弈論等多個領域的13項多樣化且開放式的AI研究任務。解決這些任務需要具備真實世界中的AI研究技能,如生成新想法和假設、創建與處理數據、實施ML方法、訓練模型、運行實驗、分析結果,並通過此過程迭代以改進特定任務。我們在基準上評估了多款前沿大型語言模型,如Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview和Gemini-1.5 Pro。我們的MLGym框架便於添加新任務、集成與評估模型或代理、大規模生成合成數據,以及開發新的學習算法來訓練代理執行AI研究任務。我們發現,當前的前沿模型能夠通過找到更好的超參數來改進給定的基線,但通常不會產生新穎的假設、算法、架構或顯著的改進。我們開源了我們的框架和基準,以促進未來在提升LLM代理AI研究能力方面的研究。