ChatPaper.aiChatPaper

ResearchGym: Оценка языковых моделей-агентов в реальных исследованиях искусственного интеллекта

ResearchGym: Evaluating Language Model Agents on Real-World AI Research

February 16, 2026
Авторы: Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan
cs.AI

Аннотация

Мы представляем ResearchGym — эталонный набор данных и среду исполнения для оценки AI-агентов в задачах сквозного научного исследования. Для его реализации мы адаптировали пять устных и стендовых докладов с конференций ICML, ICLR и ACL. Из репозитория каждой статьи мы сохранили наборы данных, средства оценки и реализации базовых методов, но исключили метод, предложенный в самой статье. В результате получилось пять контейнеризованных сред выполнения задач, включающих в общей сложности 39 подзадач. В каждой среде агенты должны выдвигать новые гипотезы, проводить эксперименты и пытаться превзойти сильные человеческие базовые показатели по метрикам исходной статьи. В контролируемой оценке агента на основе GPT-5 мы наблюдаем резкий разрыв между потенциальными возможностями и надежностью. Агент улучшает предоставленные базовые показатели из репозитория лишь в 1 из 15 оценок (6.7%) на 11.5% и в среднем завершает только 26.5% подзадач. Мы выявили повторяющиеся ошибки на длинных горизонтах планирования, включая нетерпеливость, плохое управление временем и ресурсами, излишнюю уверенность в слабых гипотезах, трудности с координацией параллельных экспериментов и жесткие ограничения, связанные с длиной контекста. Однако в одном запуске агент превзошел решение для задачи из стендового доклада ICML 2025, что указывает на то, что передовые агенты могут иногда достигать уровня современных результатов, но делают это ненадежно. Дополнительно мы оценили проприетарные каркасы агентов, включая Claude Code (Opus-4.5) и Codex (GPT-5.2), которые демонстрируют аналогичный разрыв. ResearchGym предоставляет инфраструктуру для систематической оценки и анализа автономных агентов в условиях замкнутого цикла научных исследований.
English
We introduce ResearchGym, a benchmark and execution environment for evaluating AI agents on end-to-end research. To instantiate this, we repurpose five oral and spotlight papers from ICML, ICLR, and ACL. From each paper's repository, we preserve the datasets, evaluation harness, and baseline implementations but withhold the paper's proposed method. This results in five containerized task environments comprising 39 sub-tasks in total. Within each environment, agents must propose novel hypotheses, run experiments, and attempt to surpass strong human baselines on the paper's metrics. In a controlled evaluation of an agent powered by GPT-5, we observe a sharp capability--reliability gap. The agent improves over the provided baselines from the repository in just 1 of 15 evaluations (6.7%) by 11.5%, and completes only 26.5% of sub-tasks on average. We identify recurring long-horizon failure modes, including impatience, poor time and resource management, overconfidence in weak hypotheses, difficulty coordinating parallel experiments, and hard limits from context length. Yet in a single run, the agent surpasses the solution of an ICML 2025 Spotlight task, indicating that frontier agents can occasionally reach state-of-the-art performance, but do so unreliably. We additionally evaluate proprietary agent scaffolds including Claude Code (Opus-4.5) and Codex (GPT-5.2) which display a similar gap. ResearchGym provides infrastructure for systematic evaluation and analysis of autonomous agents on closed-loop research.
PDF143February 19, 2026