MLGym: Um Novo Framework e Benchmark para Avançar os Agentes de Pesquisa em IAMLGym: A New Framework and Benchmark for Advancing AI Research Agents
Apresentamos o Meta MLGym e o MLGym-Bench, um novo framework e benchmark para avaliar e desenvolver agentes de LLM (Large Language Models) em tarefas de pesquisa em IA. Este é o primeiro ambiente Gym para tarefas de aprendizado de máquina (ML), permitindo pesquisas sobre algoritmos de aprendizado por reforço (RL) para o treinamento desses agentes. O MLGym-Bench consiste em 13 tarefas diversas e abertas de pesquisa em IA, abrangendo domínios como visão computacional, processamento de linguagem natural, aprendizado por reforço e teoria dos jogos. A resolução dessas tarefas exige habilidades reais de pesquisa em IA, como gerar novas ideias e hipóteses, criar e processar dados, implementar métodos de ML, treinar modelos, executar experimentos, analisar os resultados e iterar esse processo para melhorar uma tarefa específica. Avaliamos diversos modelos de linguagem de ponta (LLMs) em nossos benchmarks, como Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview e Gemini-1.5 Pro. Nosso framework MLGym facilita a adição de novas tarefas, a integração e avaliação de modelos ou agentes, a geração de dados sintéticos em escala, bem como o desenvolvimento de novos algoritmos de aprendizado para treinar agentes em tarefas de pesquisa em IA. Constatamos que os modelos de ponta atuais podem melhorar as linhas de base fornecidas, geralmente ao encontrar hiperparâmetros melhores, mas não geram hipóteses, algoritmos, arquiteturas ou melhorias substanciais inéditas. Disponibilizamos nosso framework e benchmark em código aberto para facilitar pesquisas futuras no avanço das capacidades de pesquisa em IA de agentes baseados em LLM.