ResearchGym : Évaluation des agents de modèles linguistiques sur la recherche en IA du monde réel
ResearchGym: Evaluating Language Model Agents on Real-World AI Research
February 16, 2026
papers.authors: Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan
cs.AI
papers.abstract
Nous présentons ResearchGym, un benchmark et un environnement d'exécution pour évaluer des agents d'IA sur la recherche de bout en bout. Pour le concrétiser, nous réaffectons cinq articles de type « oral » et « spotlight » provenant de l'ICML, de l'ICLR et de l'ACL. À partir du dépôt de code de chaque article, nous conservons les jeux de données, le cadre d'évaluation et les implémentations de référence, mais nous retenons la méthode proposée dans l'article. Il en résulte cinq environnants de tâches conteneurisés comprenant au total 39 sous-tâches. Dans chaque environnement, les agents doivent proposer de nouvelles hypothèses, exécuter des expériences et tenter de surpasser de solides références humaines sur les métriques de l'article. Lors d'une évaluation contrôlée d'un agent utilisant GPT-5, nous observons un écart marqué entre les capacités et la fiabilité. L'agent n'améliore les références fournies par le dépôt que dans 1 évaluation sur 15 (6,7 %), avec une amélioration de 11,5 %, et ne termine en moyenne que 26,5 % des sous-tâches. Nous identifions des modes d'échec récurrents sur le long terme, notamment l'impatience, une mauvaise gestion du temps et des ressources, une confiance excessive dans des hypothèses faibles, des difficultés à coordonner des expériences parallèles et des limites strictes dues à la longueur du contexte. Pourtant, lors d'une seule exécution, l'agent dépasse la solution d'une tâche « spotlight » de l'ICML 2025, indiquant que les agents de pointe peuvent occasionnellement atteindre des performances à l'état de l'art, mais de manière peu fiable. Nous évaluons également des plateformes d'agents propriétaires, notamment Claude Code (Opus-4.5) et Codex (GPT-5.2), qui présentent un écart similaire. ResearchGym fournit une infrastructure pour l'évaluation systématique et l'analyse d'agents autonomes sur la recherche en boucle fermée.
English
We introduce ResearchGym, a benchmark and execution environment for evaluating AI agents on end-to-end research. To instantiate this, we repurpose five oral and spotlight papers from ICML, ICLR, and ACL. From each paper's repository, we preserve the datasets, evaluation harness, and baseline implementations but withhold the paper's proposed method. This results in five containerized task environments comprising 39 sub-tasks in total. Within each environment, agents must propose novel hypotheses, run experiments, and attempt to surpass strong human baselines on the paper's metrics. In a controlled evaluation of an agent powered by GPT-5, we observe a sharp capability--reliability gap. The agent improves over the provided baselines from the repository in just 1 of 15 evaluations (6.7%) by 11.5%, and completes only 26.5% of sub-tasks on average. We identify recurring long-horizon failure modes, including impatience, poor time and resource management, overconfidence in weak hypotheses, difficulty coordinating parallel experiments, and hard limits from context length. Yet in a single run, the agent surpasses the solution of an ICML 2025 Spotlight task, indicating that frontier agents can occasionally reach state-of-the-art performance, but do so unreliably. We additionally evaluate proprietary agent scaffolds including Claude Code (Opus-4.5) and Codex (GPT-5.2) which display a similar gap. ResearchGym provides infrastructure for systematic evaluation and analysis of autonomous agents on closed-loop research.