ChatPaper.aiChatPaper

ResearchGym: 실제 AI 연구 환경에서 언어 모델 에이전트 평가하기

ResearchGym: Evaluating Language Model Agents on Real-World AI Research

February 16, 2026
저자: Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan
cs.AI

초록

우리는 종단간 연구 수행 능력을 평가하기 위한 벤치마크 및 실행 환경인 ResearchGym을 소개한다. 이를 구현하기 위해 ICML, ICLR, ACL의 구두 발표 및 스포트라이트 논문 5편을 재구성했다. 각 논문의 저장소에서 데이터셋, 평가 도구, 베이스라인 구현체는 유지하되, 논문에서 제안한 방법론은 제외했다. 이를 통해 총 39개의 하위 작업으로 구성된 5개의 컨테이너화된 작업 환경을 구축했다. 각 환경에서 에이전트는 새로운 가설을 제안하고 실험을 실행하며, 해당 논문의 평가 지표에서 강력한 인간 베이스라인을 능가하려 시도해야 한다. GPT-5 기반 에이전트에 대한 통제 평가에서 능력-신뢰도 간극이 뚜렷이 관찰되었다. 해당 에이전트는 저장소에서 제공된 베이스라인 대비 15회 평가 중 단 1회(6.7%)에서 11.5% 개선에 그쳤으며, 평균적으로 하위 작업의 26.5%만 완료했다. 우리는 인내심 부족, 시간 및 자원 관리 미흡, 약한 가설에 대한 과신, 병렬 실험 조율의 어려움, 컨텍스트 길이 한계 등 장기적 실패 모드가 반복적으로 발생함을 확인했다. 그러나 단일 실행에서 해당 에이전트는 ICML 2025 스포트라이트 과제의 해결책을 능가하는 결과를 보여주었는데, 이는 최첨단 에이전트가 경우에 따라 최신 수준의 성능에 도달할 수 있으나 신뢰성 있게 수행하지는 못함을 시사한다. 추가적으로 Claude Code(Opus-4.5) 및 Codex(GPT-5.2)를 포함한 독점 에이전트 스캐폴드를 평가한 결과 유사한 간극이 확인되었다. ResearchGym은 폐쇄 루프 연구에서 자율 에이전트의 체계적인 평가 및 분석을 위한 인프라를 제공한다.
English
We introduce ResearchGym, a benchmark and execution environment for evaluating AI agents on end-to-end research. To instantiate this, we repurpose five oral and spotlight papers from ICML, ICLR, and ACL. From each paper's repository, we preserve the datasets, evaluation harness, and baseline implementations but withhold the paper's proposed method. This results in five containerized task environments comprising 39 sub-tasks in total. Within each environment, agents must propose novel hypotheses, run experiments, and attempt to surpass strong human baselines on the paper's metrics. In a controlled evaluation of an agent powered by GPT-5, we observe a sharp capability--reliability gap. The agent improves over the provided baselines from the repository in just 1 of 15 evaluations (6.7%) by 11.5%, and completes only 26.5% of sub-tasks on average. We identify recurring long-horizon failure modes, including impatience, poor time and resource management, overconfidence in weak hypotheses, difficulty coordinating parallel experiments, and hard limits from context length. Yet in a single run, the agent surpasses the solution of an ICML 2025 Spotlight task, indicating that frontier agents can occasionally reach state-of-the-art performance, but do so unreliably. We additionally evaluate proprietary agent scaffolds including Claude Code (Opus-4.5) and Codex (GPT-5.2) which display a similar gap. ResearchGym provides infrastructure for systematic evaluation and analysis of autonomous agents on closed-loop research.
PDF143February 19, 2026