ReplicationBench: Kunnen AI-agenten astrofysische onderzoeksartikelen repliceren?
ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?
October 28, 2025
Auteurs: Christine Ye, Sihan Yuan, Suchetha Cooray, Steven Dillmann, Ian L. V. Roque, Dalya Baron, Philipp Frank, Sergio Martin-Alvarez, Nolan Koblischke, Frank J Qu, Diyi Yang, Risa Wechsler, Ioana Ciuca
cs.AI
Samenvatting
Frontier AI-agenten tonen een toenemende belofte als wetenschappelijke onderzoeksassistenten en zouden uiteindelijk nuttig kunnen zijn voor uitgebreide, open-eindonderzoekswerkstromen. Om agenten echter voor nieuw onderzoek te kunnen inzetten, moeten we eerst de onderliggende betrouwbaarheid en correctheid van hun werk beoordelen. Om agenten als onderzoeksassistenten te evalueren, introduceren we ReplicationBench, een evaluatieraamwerk dat test of agenten volledige onderzoeksartikelen uit de astrofysicaliteratuur kunnen repliceren. Astrofysica, waar onderzoek sterk leunt op archiefdata en computationele studie terwijl weinig real-world experimentatie nodig is, vormt een bijzonder nuttige testomgeving voor AI-agenten in wetenschappelijk onderzoek. We splitsen elk artikel op in taken die agenten verplichten de kernbijdragen van het artikel te repliceren, inclusief de experimentele opzet, afleidingen, data-analyse en codebase. Elke taak wordt samen met de oorspronkelijke paperauteurs ontwikkeld en richt zich op een belangrijk wetenschappelijk resultaat, waardoor objectieve evaluatie van zowel betrouwbaarheid (trouw aan oorspronkelijke methoden) als correctheid (technische nauwkeurigheid van resultaten) mogelijk is. ReplicationBench is extreem uitdagend voor huidige frontier taalmodelen: zelfs de best presterende taalmodelen scoren onder de 20%. We analyseren ReplicationBench-trajecten in samenwerking met domeinexperts en ontdekken een rijke, diverse reeks faalmodi voor agenten in wetenschappelijk onderzoek. ReplicationBench vestigt de eerste benchmark van paperschaal, expert-gevalideerde astrofysica-onderzoektaken, onthult inzichten over agentprestaties die generaliseerbaar zijn naar andere domeinen van data-gedreven wetenschap, en biedt een schaalbaar raamwerk voor het meten van de betrouwbaarheid van AI-agenten in wetenschappelijk onderzoek.
English
Frontier AI agents show increasing promise as scientific research assistants,
and may eventually be useful for extended, open-ended research workflows.
However, in order to use agents for novel research, we must first assess the
underlying faithfulness and correctness of their work. To evaluate agents as
research assistants, we introduce ReplicationBench, an evaluation framework
that tests whether agents can replicate entire research papers drawn from the
astrophysics literature. Astrophysics, where research relies heavily on
archival data and computational study while requiring little real-world
experimentation, is a particularly useful testbed for AI agents in scientific
research. We split each paper into tasks which require agents to replicate the
paper's core contributions, including the experimental setup, derivations, data
analysis, and codebase. Each task is co-developed with the original paper
authors and targets a key scientific result, enabling objective evaluation of
both faithfulness (adherence to original methods) and correctness (technical
accuracy of results). ReplicationBench is extremely challenging for current
frontier language models: even the best-performing language models score under
20%. We analyze ReplicationBench trajectories in collaboration with domain
experts and find a rich, diverse set of failure modes for agents in scientific
research. ReplicationBench establishes the first benchmark of paper-scale,
expert-validated astrophysics research tasks, reveals insights about agent
performance generalizable to other domains of data-driven science, and provides
a scalable framework for measuring AI agents' reliability in scientific
research.