MLGym: Um Novo Framework e Benchmark para Avançar os Agentes de Pesquisa em IA

Resumo

Apresentamos o Meta MLGym e o MLGym-Bench, um novo framework e benchmark para avaliar e desenvolver agentes de LLM (Large Language Models) em tarefas de pesquisa em IA. Este é o primeiro ambiente Gym para tarefas de aprendizado de máquina (ML), permitindo pesquisas sobre algoritmos de aprendizado por reforço (RL) para o treinamento desses agentes. O MLGym-Bench consiste em 13 tarefas diversas e abertas de pesquisa em IA, abrangendo domínios como visão computacional, processamento de linguagem natural, aprendizado por reforço e teoria dos jogos. A resolução dessas tarefas exige habilidades reais de pesquisa em IA, como gerar novas ideias e hipóteses, criar e processar dados, implementar métodos de ML, treinar modelos, executar experimentos, analisar os resultados e iterar esse processo para melhorar uma tarefa específica. Avaliamos diversos modelos de linguagem de ponta (LLMs) em nossos benchmarks, como Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview e Gemini-1.5 Pro. Nosso framework MLGym facilita a adição de novas tarefas, a integração e avaliação de modelos ou agentes, a geração de dados sintéticos em escala, bem como o desenvolvimento de novos algoritmos de aprendizado para treinar agentes em tarefas de pesquisa em IA. Constatamos que os modelos de ponta atuais podem melhorar as linhas de base fornecidas, geralmente ao encontrar hiperparâmetros melhores, mas não geram hipóteses, algoritmos, arquiteturas ou melhorias substanciais inéditas. Disponibilizamos nosso framework e benchmark em código aberto para facilitar pesquisas futuras no avanço das capacidades de pesquisa em IA de agentes baseados em LLM.

English

We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for evaluating and developing LLM agents on AI research tasks. This is the first Gym environment for machine learning (ML) tasks, enabling research on reinforcement learning (RL) algorithms for training such agents. MLGym-bench consists of 13 diverse and open-ended AI research tasks from diverse domains such as computer vision, natural language processing, reinforcement learning, and game theory. Solving these tasks requires real-world AI research skills such as generating new ideas and hypotheses, creating and processing data, implementing ML methods, training models, running experiments, analyzing the results, and iterating through this process to improve on a given task. We evaluate a number of frontier large language models (LLMs) on our benchmarks such as Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, and Gemini-1.5 Pro. Our MLGym framework makes it easy to add new tasks, integrate and evaluate models or agents, generate synthetic data at scale, as well as develop new learning algorithms for training agents on AI research tasks. We find that current frontier models can improve on the given baselines, usually by finding better hyperparameters, but do not generate novel hypotheses, algorithms, architectures, or substantial improvements. We open-source our framework and benchmark to facilitate future research in advancing the AI research capabilities of LLM agents.

MLGym: Um Novo Framework e Benchmark para Avançar os Agentes de Pesquisa em IA

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Resumo

Support