ResearchGym: Evaluierung von Sprachmodell-Agents in der realen KI-Forschung
ResearchGym: Evaluating Language Model Agents on Real-World AI Research
February 16, 2026
papers.authors: Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan
cs.AI
papers.abstract
Wir stellen ResearchGym vor, ein Benchmark- und Ausführungsumgebung zur Bewertung von KI-Agenten in der End-to-End-Forschung. Zur Konkretisierung haben wir fünf Vortrags- und Spotlight-Papers von der ICML, ICLR und ACL umgewidmet. Aus dem Repository jedes Papers haben wir die Datensätze, die Evaluierungsinfrastruktur und die Implementierungen der Baseline-Modelle übernommen, die vom Paper vorgeschlagene Methode jedoch zurückgehalten. Dies ergibt fünf containerisierte Aufgabenumgebungen mit insgesamt 39 Teilaufgaben. Innerhalb jeder Umgebung müssen Agenten neue Hypothesen aufstellen, Experimente durchführen und versuchen, die starken menschlichen Baselines in den Metriken des Papers zu übertreffen. In einer kontrollierten Evaluation eines mit GPT-5 betriebenen Agenten beobachten wir eine deutliche Fähigkeits-Zuverlässigkeits-Lücke. Der Agent verbessert die bereitgestellten Baselines aus dem Repository in nur 1 von 15 Evaluationen (6,7 %) um 11,5 % und schließt im Durchschnitt nur 26,5 % der Teilaufgaben ab. Wir identifizieren wiederkehrende Fehlermuster mit langem Zeithorizont, darunter Ungeduld, schlechtes Zeit- und Ressourcenmanagement, übermäßiges Vertrauen in schwache Hypothesen, Schwierigkeiten bei der Koordination paralleler Experimente und harte Grenzen durch die Kontextlänge. In einem einzelnen Durchlauf übertrifft der Agent jedoch die Lösung einer ICML 2025 Spotlight-Aufgabe, was darauf hindeutet, dass Spitzenagenten gelegentlich State-of-the-Art-Leistung erreichen können, dies aber unzuverlässig tun. Wir evaluieren zusätzlich proprietäre Agenten-Scaffolds, darunter Claude Code (Opus-4.5) und Codex (GPT-5.2), die eine ähnliche Lücke aufweisen. ResearchGym bietet die Infrastruktur für die systematische Evaluation und Analyse autonomer Agenten in der geschlossenen Forschungsarbeit.
English
We introduce ResearchGym, a benchmark and execution environment for evaluating AI agents on end-to-end research. To instantiate this, we repurpose five oral and spotlight papers from ICML, ICLR, and ACL. From each paper's repository, we preserve the datasets, evaluation harness, and baseline implementations but withhold the paper's proposed method. This results in five containerized task environments comprising 39 sub-tasks in total. Within each environment, agents must propose novel hypotheses, run experiments, and attempt to surpass strong human baselines on the paper's metrics. In a controlled evaluation of an agent powered by GPT-5, we observe a sharp capability--reliability gap. The agent improves over the provided baselines from the repository in just 1 of 15 evaluations (6.7%) by 11.5%, and completes only 26.5% of sub-tasks on average. We identify recurring long-horizon failure modes, including impatience, poor time and resource management, overconfidence in weak hypotheses, difficulty coordinating parallel experiments, and hard limits from context length. Yet in a single run, the agent surpasses the solution of an ICML 2025 Spotlight task, indicating that frontier agents can occasionally reach state-of-the-art performance, but do so unreliably. We additionally evaluate proprietary agent scaffolds including Claude Code (Opus-4.5) and Codex (GPT-5.2) which display a similar gap. ResearchGym provides infrastructure for systematic evaluation and analysis of autonomous agents on closed-loop research.