ChatPaper.aiChatPaper

ResearchGym: 言語モデルエージェントの実世界AI研究における評価

ResearchGym: Evaluating Language Model Agents on Real-World AI Research

February 16, 2026
著者: Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan
cs.AI

要旨

我々は、AIエージェントのエンドツーエンド研究能力を評価するためのベンチマークおよび実行環境「ResearchGym」を提案する。具体的には、ICML、ICLR、ACLの口頭発表およびスポットライト論文5本を再構築した。各論文のリポジトリからデータセット、評価ハーネス、ベースライン実装を保持する一方、論文で提案された手法自体は除外している。これにより、合計39のサブタスクから構成される5つのコンテナ化されたタスク環境が構築された。各環境内で、エージェントは新たな仮説を提案し、実験を実行し、論文の評価指標において強力な人間のベースラインを超えることを目指さなければならない。 GPT-5を搭載したエージェントの制御評価では、能力と信頼性に顕著な乖離が観察された。エージェントがリポジトリ提供のベースラインを改善したのは15回の評価中わずか1回(6.7%)で、改善幅は11.5%であった。また、サブタスクの平均完了率は26.5%に留まった。我々は、長期的な失敗パターンとして以下を特定した:忍耐力の欠如、時間とリソース管理の不備、弱い仮説への過信、並列実験の調整困難、コンテキスト長による制約。しかし単一の実行において、エージェントはICML 2025スポットライトタスクの解決策を上回り、最先端エージェントが偶発的に最高水準の性能に達し得るものの、再現性に欠けることを示唆した。 さらにClaude Code(Opus-4.5)やCodex(GPT-5.2)などのプロプライエタリなエージェント基盤を評価したところ、同様の乖離が確認された。ResearchGymは、自律エージェントの閉ループ研究における体系的な評価と分析のためのインフラを提供する。
English
We introduce ResearchGym, a benchmark and execution environment for evaluating AI agents on end-to-end research. To instantiate this, we repurpose five oral and spotlight papers from ICML, ICLR, and ACL. From each paper's repository, we preserve the datasets, evaluation harness, and baseline implementations but withhold the paper's proposed method. This results in five containerized task environments comprising 39 sub-tasks in total. Within each environment, agents must propose novel hypotheses, run experiments, and attempt to surpass strong human baselines on the paper's metrics. In a controlled evaluation of an agent powered by GPT-5, we observe a sharp capability--reliability gap. The agent improves over the provided baselines from the repository in just 1 of 15 evaluations (6.7%) by 11.5%, and completes only 26.5% of sub-tasks on average. We identify recurring long-horizon failure modes, including impatience, poor time and resource management, overconfidence in weak hypotheses, difficulty coordinating parallel experiments, and hard limits from context length. Yet in a single run, the agent surpasses the solution of an ICML 2025 Spotlight task, indicating that frontier agents can occasionally reach state-of-the-art performance, but do so unreliably. We additionally evaluate proprietary agent scaffolds including Claude Code (Opus-4.5) and Codex (GPT-5.2) which display a similar gap. ResearchGym provides infrastructure for systematic evaluation and analysis of autonomous agents on closed-loop research.
PDF143February 19, 2026