ResearchGym: Evaluación de Agentes de Modelos de Lenguaje en Investigación de IA del Mundo Real
ResearchGym: Evaluating Language Model Agents on Real-World AI Research
February 16, 2026
Autores: Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan
cs.AI
Resumen
Presentamos ResearchGym, un benchmark y entorno de ejecución para evaluar agentes de IA en investigación de extremo a extremo. Para materializarlo, reutilizamos cinco artículos de tipo oral y spotlight de las conferencias ICML, ICLR y ACL. Para cada repositorio de artículo, preservamos los conjuntos de datos, el sistema de evaluación y las implementaciones de referencia, pero omitimos el método propuesto en el artículo. Esto da como resultado cinco entornos de tareas containerizados que comprenden 39 sub-tareas en total. Dentro de cada entorno, los agentes deben proponer hipótesis novedosas, ejecutar experimentos e intentar superar los sólidos resultados de referencia humanos en las métricas del artículo. En una evaluación controlada de un agente basado en GPT-5, observamos una marcada brecha capacidad-fiabilidad. El agente mejora los resultados de referencia proporcionados por el repositorio en solo 1 de 15 evaluaciones (6,7%), con una mejora del 11,5%, y completa solo el 26,5% de las sub-tareas en promedio. Identificamos modos de fallo recurrentes de horizonte largo, que incluyen impaciencia, mala gestión del tiempo y los recursos, exceso de confianza en hipótesis débiles, dificultad para coordinar experimentos paralelos y límites estrictos debidos a la longitud de contexto. Sin embargo, en una única ejecución, el agente supera la solución de una tarea Spotlight de ICML 2025, lo que indica que los agentes de última generación pueden alcanzar ocasionalmente un rendimiento de vanguardia, pero lo hacen de manera poco fiable. También evaluamos andamiajes de agentes propietarios, incluidos Claude Code (Opus-4.5) y Codex (GPT-5.2), que muestran una brecha similar. ResearchGym proporciona la infraestructura para la evaluación sistemática y el análisis de agentes autónomos en investigación de bucle cerrado.
English
We introduce ResearchGym, a benchmark and execution environment for evaluating AI agents on end-to-end research. To instantiate this, we repurpose five oral and spotlight papers from ICML, ICLR, and ACL. From each paper's repository, we preserve the datasets, evaluation harness, and baseline implementations but withhold the paper's proposed method. This results in five containerized task environments comprising 39 sub-tasks in total. Within each environment, agents must propose novel hypotheses, run experiments, and attempt to surpass strong human baselines on the paper's metrics. In a controlled evaluation of an agent powered by GPT-5, we observe a sharp capability--reliability gap. The agent improves over the provided baselines from the repository in just 1 of 15 evaluations (6.7%) by 11.5%, and completes only 26.5% of sub-tasks on average. We identify recurring long-horizon failure modes, including impatience, poor time and resource management, overconfidence in weak hypotheses, difficulty coordinating parallel experiments, and hard limits from context length. Yet in a single run, the agent surpasses the solution of an ICML 2025 Spotlight task, indicating that frontier agents can occasionally reach state-of-the-art performance, but do so unreliably. We additionally evaluate proprietary agent scaffolds including Claude Code (Opus-4.5) and Codex (GPT-5.2) which display a similar gap. ResearchGym provides infrastructure for systematic evaluation and analysis of autonomous agents on closed-loop research.