ResearchGym: Het Evalueren van Taalmodelagenten op Echt AI-Onderzoek

Samenvatting

Wij introduceren ResearchGym, een benchmark en uitvoeringsomgeving voor het evalueren van AI-agenten op end-to-end onderzoek. Om dit te concretiseren, hergebruiken we vijf orale en spotlight papers van ICML, ICLR en ACL. Uit de repository van elke paper behouden we de datasets, de evaluatie-opzet en de baseline-implementaties, maar we houden de door de paper voorgestelde methode achter. Dit resulteert in vijf gecontaineriseerde taakomgevingen die in totaal 39 sub-taken omvatten. Binnen elke omgeving moeten agenten nieuwe hypothesen voorstellen, experimenten uitvoeren en proberen de sterke menselijke baselines op de metrieken van de paper te overtreffen. In een gecontroleerde evaluatie van een agent aangedreven door GPT-5 observeren we een grote kloof tussen capaciteit en betrouwbaarheid. De agent verbetert de verstrekte baselines uit de repository in slechts 1 van de 15 evaluaties (6,7%) met 11,5%, en voltooit gemiddeld slechts 26,5% van de sub-taken. Wij identificeren terugkerende foutmodi op de lange termijn, waaronder ongeduld, slecht tijd- en resourcebeheer, overmoed in zwakke hypothesen, moeilijkheden bij het coördineren van parallelle experimenten en harde limieten door contextlengte. Toch overtreft de agent in een enkele run de oplossing van een ICML 2025 Spotlight-taak, wat aangeeft dat frontier-agenten af en toe state-of-the-art prestaties kunnen bereiken, maar dit onbetrouwbaar doen. We evalueren tevens propriëtaire agent-scaffolds, waaronder Claude Code (Opus-4.5) en Codex (GPT-5.2), die een vergelijkbare kloof vertonen. ResearchGym biedt infrastructuur voor de systematische evaluatie en analyse van autonome agenten bij gesloten-lus onderzoek.

English

We introduce ResearchGym, a benchmark and execution environment for evaluating AI agents on end-to-end research. To instantiate this, we repurpose five oral and spotlight papers from ICML, ICLR, and ACL. From each paper's repository, we preserve the datasets, evaluation harness, and baseline implementations but withhold the paper's proposed method. This results in five containerized task environments comprising 39 sub-tasks in total. Within each environment, agents must propose novel hypotheses, run experiments, and attempt to surpass strong human baselines on the paper's metrics. In a controlled evaluation of an agent powered by GPT-5, we observe a sharp capability--reliability gap. The agent improves over the provided baselines from the repository in just 1 of 15 evaluations (6.7%) by 11.5%, and completes only 26.5% of sub-tasks on average. We identify recurring long-horizon failure modes, including impatience, poor time and resource management, overconfidence in weak hypotheses, difficulty coordinating parallel experiments, and hard limits from context length. Yet in a single run, the agent surpasses the solution of an ICML 2025 Spotlight task, indicating that frontier agents can occasionally reach state-of-the-art performance, but do so unreliably. We additionally evaluate proprietary agent scaffolds including Claude Code (Opus-4.5) and Codex (GPT-5.2) which display a similar gap. ResearchGym provides infrastructure for systematic evaluation and analysis of autonomous agents on closed-loop research.

ResearchGym: Het Evalueren van Taalmodelagenten op Echt AI-Onderzoek

ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Samenvatting

Support