ResearchGym: Valutazione di Agenti Basati su Modelli Linguistici nella Ricerca sull'IA del Mondo Reale

Abstract

Introduciamo ResearchGym, un benchmark e un ambiente di esecuzione per valutare agenti di IA nella ricerca end-to-end. Per istanziarlo, riadattiamo cinque articoli orali e spotlight provenienti da ICML, ICLR e ACL. Per ogni repository degli articoli, preserviamo i dataset, il sistema di valutazione e le implementazioni di baseline, ma omettiamo il metodo proposto dall'articolo. Ciò si traduce in cinque ambienti di task containerizzati che comprendono complessivamente 39 sotto-task. All'interno di ogni ambiente, gli agenti devono proporre nuove ipotesi, eseguire esperimenti e tentare di superare solide baseline umane sulle metriche dell'articolo. In una valutazione controllata di un agente basato su GPT-5, osserviamo un netto divario capacità-affidabilità. L'agente migliora le baseline fornite dal repository solo in 1 caso su 15 valutazioni (6,7%), con un miglioramento dell'11,5%, e completa in media solo il 26,5% dei sotto-task. Identifichiamo modi di fallimento ricorrenti a lungo termine, tra cui impazienza, scarsa gestione del tempo e delle risorse, eccessiva fiducia in ipotesi deboli, difficoltà nel coordinare esperimenti paralleli e limiti rigidi dovuti alla lunghezza del contesto. Tuttavia, in una singola esecuzione, l'agente supera la soluzione di un task Spotlight di ICML 2025, indicando che gli agenti all'avanguardia possono occasionalmente raggiungere prestazioni di stato dell'arte, ma in modo non affidabile. Valutiamo inoltre scaffold di agenti proprietari, tra cui Claude Code (Opus-4.5) e Codex (GPT-5.2), che mostrano un divario simile. ResearchGym fornisce l'infrastruttura per la valutazione sistematica e l'analisi di agenti autonomi nella ricerca a ciclo chiuso.

English

We introduce ResearchGym, a benchmark and execution environment for evaluating AI agents on end-to-end research. To instantiate this, we repurpose five oral and spotlight papers from ICML, ICLR, and ACL. From each paper's repository, we preserve the datasets, evaluation harness, and baseline implementations but withhold the paper's proposed method. This results in five containerized task environments comprising 39 sub-tasks in total. Within each environment, agents must propose novel hypotheses, run experiments, and attempt to surpass strong human baselines on the paper's metrics. In a controlled evaluation of an agent powered by GPT-5, we observe a sharp capability--reliability gap. The agent improves over the provided baselines from the repository in just 1 of 15 evaluations (6.7%) by 11.5%, and completes only 26.5% of sub-tasks on average. We identify recurring long-horizon failure modes, including impatience, poor time and resource management, overconfidence in weak hypotheses, difficulty coordinating parallel experiments, and hard limits from context length. Yet in a single run, the agent surpasses the solution of an ICML 2025 Spotlight task, indicating that frontier agents can occasionally reach state-of-the-art performance, but do so unreliably. We additionally evaluate proprietary agent scaffolds including Claude Code (Opus-4.5) and Codex (GPT-5.2) which display a similar gap. ResearchGym provides infrastructure for systematic evaluation and analysis of autonomous agents on closed-loop research.

ResearchGym: Valutazione di Agenti Basati su Modelli Linguistici nella Ricerca sull'IA del Mondo Reale

ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Abstract

Support