ReplicationBench: Können KI-Agenten astrophysikalische Forschungsarbeiten replizieren?
ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?
October 28, 2025
papers.authors: Christine Ye, Sihan Yuan, Suchetha Cooray, Steven Dillmann, Ian L. V. Roque, Dalya Baron, Philipp Frank, Sergio Martin-Alvarez, Nolan Koblischke, Frank J Qu, Diyi Yang, Risa Wechsler, Ioana Ciuca
cs.AI
papers.abstract
KI-Agenten der Spitzenklasse zeigen zunehmend Potenzial als Forschungshilfen und könnten langfristig für umfassende, offene Forschungsabläufe nützlich sein. Um Agenten jedoch für neuartige Forschung einzusetzen, müssen wir zunächst die grundlegende Zuverlässigkeit und Korrektheit ihrer Arbeit bewerten. Zur Evaluierung von Agenten als Forschungshilfen stellen wir ReplicationBench vor – ein Evaluierungsrahmenwerk, das testet, ob Agenten gesamte Forschungsarbeiten aus der Astrophysik-Literatur replizieren können. Die Astrophysik, deren Forschung stark auf Archivdaten und computergestützte Studien angewiesen ist und kaum reale Experimente erfordert, stellt ein besonders geeignetes Testfeld für KI-Agenten in der wissenschaftlichen Forschung dar. Wir unterteilen jede Arbeit in Aufgaben, die von den Agenten verlangen, die zentralen Beiträge der Arbeit zu replizieren, einschließlich des experimentellen Aufbaus, Herleitungen, Datenanalysen und Codebasis. Jede Aufgabe wird gemeinsam mit den Originalautoren der Arbeit entwickelt und zielt auf ein zentrales wissenschaftliches Ergebnis ab, was eine objektive Bewertung sowohl der Zuverlässigkeit (Einhaltung der ursprünglichen Methoden) als auch der Korrektheit (fachliche Genauigkeit der Ergebnisse) ermöglicht. ReplicationBench stellt eine enorme Herausforderung für aktuelle Sprachmodelle der Spitzenklasse dar: selbst die leistungsstärksten Sprachmodelle erreichen Werte unter 20%. Durch die Analyse von ReplicationBench-Durchläufen in Zusammenarbeit mit Domain-Experten identifizieren wir eine Vielzahl unterschiedlicher Fehlermodi von Agenten in der wissenschaftlichen Forschung. ReplicationBench etabliert den ersten Benchmark für papierumspannende, expertenvalidierte astrophysikalische Forschungsaufgaben, liefert Erkenntnisse über die Leistungsfähigkeit von Agenten, die auf andere Bereiche datengetriebener Wissenschaft übertragbar sind, und bietet ein skalierbares Rahmenwerk zur Messung der Zuverlässigkeit von KI-Agenten in der wissenschaftlichen Forschung.
English
Frontier AI agents show increasing promise as scientific research assistants,
and may eventually be useful for extended, open-ended research workflows.
However, in order to use agents for novel research, we must first assess the
underlying faithfulness and correctness of their work. To evaluate agents as
research assistants, we introduce ReplicationBench, an evaluation framework
that tests whether agents can replicate entire research papers drawn from the
astrophysics literature. Astrophysics, where research relies heavily on
archival data and computational study while requiring little real-world
experimentation, is a particularly useful testbed for AI agents in scientific
research. We split each paper into tasks which require agents to replicate the
paper's core contributions, including the experimental setup, derivations, data
analysis, and codebase. Each task is co-developed with the original paper
authors and targets a key scientific result, enabling objective evaluation of
both faithfulness (adherence to original methods) and correctness (technical
accuracy of results). ReplicationBench is extremely challenging for current
frontier language models: even the best-performing language models score under
20%. We analyze ReplicationBench trajectories in collaboration with domain
experts and find a rich, diverse set of failure modes for agents in scientific
research. ReplicationBench establishes the first benchmark of paper-scale,
expert-validated astrophysics research tasks, reveals insights about agent
performance generalizable to other domains of data-driven science, and provides
a scalable framework for measuring AI agents' reliability in scientific
research.