ResearchGym: Avaliação de Agentes de Modelos de Linguagem em Pesquisas de IA do Mundo Real

Resumo

Apresentamos o ResearchGym, um benchmark e ambiente de execução para avaliar agentes de IA em pesquisa de ponta a ponta. Para concretizar isso, reaproveitamos cinco artigos orais e de destaque (spotlight) da ICML, ICLR e ACL. A partir do repositório de cada artigo, preservamos os conjuntos de dados, o *harness* de avaliação e as implementações de linha de base, mas retemos o método proposto no artigo. Isso resulta em cinco ambientes de tarefa containerizados, compreendendo um total de 39 subtarefas. Dentro de cada ambiente, os agentes devem propor novas hipóteses, executar experimentos e tentar superar fortes linhas de base humanas nas métricas do artigo. Em uma avaliação controlada de um agente baseado em GPT-5, observamos uma acentuada lacuna capacidade-confiabilidade. O agente supera as linhas de base fornecidas pelo repositório em apenas 1 de 15 avaliações (6,7%), com uma melhoria de 11,5%, e conclui em média apenas 26,5% das subtarefas. Identificamos modos de falha recorrentes de longo horizonte, incluindo impaciência, má gestão de tempo e recursos, excesso de confiança em hipóteses fracas, dificuldade em coordenar experimentos paralelos e limites rígidos de contexto (*context length*). No entanto, em uma única execução, o agente superou a solução de uma tarefa de destaque (spotlight) da ICML 2025, indicando que agentes de fronteira podem ocasionalmente atingir desempenho de última geração, mas o fazem de forma não confiável. Avaliamos adicionalmente *scaffolds* de agentes proprietários, incluindo Claude Code (Opus-4.5) e Codex (GPT-5.2), que exibem uma lacuna semelhante. O ResearchGym fornece infraestrutura para avaliação sistemática e análise de agentes autônomos em pesquisa de ciclo fechado.

English

We introduce ResearchGym, a benchmark and execution environment for evaluating AI agents on end-to-end research. To instantiate this, we repurpose five oral and spotlight papers from ICML, ICLR, and ACL. From each paper's repository, we preserve the datasets, evaluation harness, and baseline implementations but withhold the paper's proposed method. This results in five containerized task environments comprising 39 sub-tasks in total. Within each environment, agents must propose novel hypotheses, run experiments, and attempt to surpass strong human baselines on the paper's metrics. In a controlled evaluation of an agent powered by GPT-5, we observe a sharp capability--reliability gap. The agent improves over the provided baselines from the repository in just 1 of 15 evaluations (6.7%) by 11.5%, and completes only 26.5% of sub-tasks on average. We identify recurring long-horizon failure modes, including impatience, poor time and resource management, overconfidence in weak hypotheses, difficulty coordinating parallel experiments, and hard limits from context length. Yet in a single run, the agent surpasses the solution of an ICML 2025 Spotlight task, indicating that frontier agents can occasionally reach state-of-the-art performance, but do so unreliably. We additionally evaluate proprietary agent scaffolds including Claude Code (Opus-4.5) and Codex (GPT-5.2) which display a similar gap. ResearchGym provides infrastructure for systematic evaluation and analysis of autonomous agents on closed-loop research.

ResearchGym: Avaliação de Agentes de Modelos de Linguagem em Pesquisas de IA do Mundo Real

ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Resumo

Support