MLGym: AI 연구 에이전트 발전을 위한 새로운 프레임워크 및 벤치마크MLGym: A New Framework and Benchmark for Advancing AI Research Agents
우리는 AI 연구 과제에서 LLM 에이전트를 평가하고 개발하기 위한 새로운 프레임워크 및 벤치마크인 Meta MLGym과 MLGym-Bench를 소개합니다. 이는 머신러닝(ML) 과제를 위한 최초의 Gym 환경으로, 이러한 에이전트를 훈련하기 위한 강화학습(RL) 알고리즘 연구를 가능하게 합니다. MLGym-Bench는 컴퓨터 비전, 자연어 처리, 강화학습, 게임 이론 등 다양한 분야에서 선별된 13개의 다양하고 개방형 AI 연구 과제로 구성됩니다. 이러한 과제를 해결하기 위해서는 새로운 아이디어와 가설 생성, 데이터 생성 및 처리, ML 방법 구현, 모델 훈련, 실험 실행, 결과 분석, 그리고 주어진 과제를 개선하기 위한 반복적 과정과 같은 실제 AI 연구 기술이 요구됩니다. 우리는 Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, Gemini-1.5 Pro 등 여러 최첨단 대형 언어 모델(LLM)을 벤치마크에서 평가했습니다. MLGym 프레임워크는 새로운 과제 추가, 모델 또는 에이전트 통합 및 평가, 대규모 합성 데이터 생성, 그리고 AI 연구 과제에서 에이전트를 훈련하기 위한 새로운 학습 알고리즘 개발을 용이하게 합니다. 우리는 현재의 최첨단 모델들이 주어진 기준선을 개선할 수 있지만, 이는 주로 더 나은 하이퍼파라미터를 찾는 데 그치며, 새로운 가설, 알고리즘, 아키텍처 또는 상당한 개선을 생성하지는 못한다는 것을 발견했습니다. 우리는 LLM 에이전트의 AI 연구 역량을 발전시키기 위한 미래 연구를 촉진하기 위해 이 프레임워크와 벤치마크를 오픈소스로 공개합니다.