MLGym: Um Novo Framework e Benchmark para Avançar os Agentes de Pesquisa em IA
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
February 20, 2025
Autores: Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu
cs.AI
Resumo
Apresentamos o Meta MLGym e o MLGym-Bench, um novo framework e benchmark para avaliar e desenvolver agentes de LLM (Large Language Models) em tarefas de pesquisa em IA. Este é o primeiro ambiente Gym para tarefas de aprendizado de máquina (ML), permitindo pesquisas sobre algoritmos de aprendizado por reforço (RL) para o treinamento desses agentes. O MLGym-Bench consiste em 13 tarefas diversas e abertas de pesquisa em IA, abrangendo domínios como visão computacional, processamento de linguagem natural, aprendizado por reforço e teoria dos jogos. A resolução dessas tarefas exige habilidades reais de pesquisa em IA, como gerar novas ideias e hipóteses, criar e processar dados, implementar métodos de ML, treinar modelos, executar experimentos, analisar os resultados e iterar esse processo para melhorar uma tarefa específica. Avaliamos diversos modelos de linguagem de ponta (LLMs) em nossos benchmarks, como Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview e Gemini-1.5 Pro. Nosso framework MLGym facilita a adição de novas tarefas, a integração e avaliação de modelos ou agentes, a geração de dados sintéticos em escala, bem como o desenvolvimento de novos algoritmos de aprendizado para treinar agentes em tarefas de pesquisa em IA. Constatamos que os modelos de ponta atuais podem melhorar as linhas de base fornecidas, geralmente ao encontrar hiperparâmetros melhores, mas não geram hipóteses, algoritmos, arquiteturas ou melhorias substanciais inéditas. Disponibilizamos nosso framework e benchmark em código aberto para facilitar pesquisas futuras no avanço das capacidades de pesquisa em IA de agentes baseados em LLM.
English
We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for
evaluating and developing LLM agents on AI research tasks. This is the first
Gym environment for machine learning (ML) tasks, enabling research on
reinforcement learning (RL) algorithms for training such agents. MLGym-bench
consists of 13 diverse and open-ended AI research tasks from diverse domains
such as computer vision, natural language processing, reinforcement learning,
and game theory. Solving these tasks requires real-world AI research skills
such as generating new ideas and hypotheses, creating and processing data,
implementing ML methods, training models, running experiments, analyzing the
results, and iterating through this process to improve on a given task. We
evaluate a number of frontier large language models (LLMs) on our benchmarks
such as Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, and Gemini-1.5
Pro. Our MLGym framework makes it easy to add new tasks, integrate and evaluate
models or agents, generate synthetic data at scale, as well as develop new
learning algorithms for training agents on AI research tasks. We find that
current frontier models can improve on the given baselines, usually by finding
better hyperparameters, but do not generate novel hypotheses, algorithms,
architectures, or substantial improvements. We open-source our framework and
benchmark to facilitate future research in advancing the AI research
capabilities of LLM agents.Summary
AI-Generated Summary