ReplicationBench: Gli Agenti IA Possono Replicare i Documenti di Ricerca in Astrofisica?
ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?
October 28, 2025
Autori: Christine Ye, Sihan Yuan, Suchetha Cooray, Steven Dillmann, Ian L. V. Roque, Dalya Baron, Philipp Frank, Sergio Martin-Alvarez, Nolan Koblischke, Frank J Qu, Diyi Yang, Risa Wechsler, Ioana Ciuca
cs.AI
Abstract
Gli agenti di intelligenza artificiale di frontiera mostrano un potenziale crescente come assistenti per la ricerca scientifica e potrebbero rivelarsi utili per flussi di lavoro di ricerca estesi e aperti. Tuttavia, per utilizzare gli agenti in ricerche innovative, dobbiamo prima valutarne la fedeltà e la correttezza di base. Per valutare gli agenti come assistenti di ricerca, introduciamo ReplicationBench, un framework di valutazione che verifica se gli agenti sono in grado di replicare interi articoli di ricerca tratti dalla letteratura astrofisica. L'astrofisica, dove la ricerca si basa fortemente su dati d'archivio e studi computazionali richiedendo poca sperimentazione nel mondo reale, rappresenta un banco di prova particolarmente utile per gli agenti IA nella ricerca scientifica. Suddividiamo ogni articolo in compiti che richiedono agli agenti di replicare i contributi fondamentali del documento, inclusi la configurazione sperimentale, le derivazioni, l'analisi dei dati e il codice sorgente. Ogni compito è sviluppato in collaborazione con gli autori originali dell'articolo e mira a un risultato scientifico chiave, consentendo una valutazione oggettiva sia della fedeltà (aderenza ai metodi originali) che della correttezza (accuratezza tecnica dei risultati). ReplicationBench è estremamente impegnativo per gli attuali modelli linguistici di frontiera: anche i modelli con le prestazioni migliori ottengono punteggi inferiori al 20%. Analizziamo le traiettorie di ReplicationBench in collaborazione con esperti di dominio e individuiamo un ricco e diversificato insieme di modalità di fallimento per gli agenti nella ricerca scientifica. ReplicationBench stabilisce il primo benchmark di compiti di ricerca astrofisica su scala articolare convalidati da esperti, rivela intuizioni sulle prestazioni degli agenti generalizzabili ad altri domini della scienza basata sui dati e fornisce un framework scalabile per misurare l'affidabilità degli agenti IA nella ricerca scientifica.
English
Frontier AI agents show increasing promise as scientific research assistants,
and may eventually be useful for extended, open-ended research workflows.
However, in order to use agents for novel research, we must first assess the
underlying faithfulness and correctness of their work. To evaluate agents as
research assistants, we introduce ReplicationBench, an evaluation framework
that tests whether agents can replicate entire research papers drawn from the
astrophysics literature. Astrophysics, where research relies heavily on
archival data and computational study while requiring little real-world
experimentation, is a particularly useful testbed for AI agents in scientific
research. We split each paper into tasks which require agents to replicate the
paper's core contributions, including the experimental setup, derivations, data
analysis, and codebase. Each task is co-developed with the original paper
authors and targets a key scientific result, enabling objective evaluation of
both faithfulness (adherence to original methods) and correctness (technical
accuracy of results). ReplicationBench is extremely challenging for current
frontier language models: even the best-performing language models score under
20%. We analyze ReplicationBench trajectories in collaboration with domain
experts and find a rich, diverse set of failure modes for agents in scientific
research. ReplicationBench establishes the first benchmark of paper-scale,
expert-validated astrophysics research tasks, reveals insights about agent
performance generalizable to other domains of data-driven science, and provides
a scalable framework for measuring AI agents' reliability in scientific
research.