ChatPaper.aiChatPaper

ReplicationBench : Les agents IA peuvent-ils reproduire les articles de recherche en astrophysique ?

ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?

October 28, 2025
papers.authors: Christine Ye, Sihan Yuan, Suchetha Cooray, Steven Dillmann, Ian L. V. Roque, Dalya Baron, Philipp Frank, Sergio Martin-Alvarez, Nolan Koblischke, Frank J Qu, Diyi Yang, Risa Wechsler, Ioana Ciuca
cs.AI

papers.abstract

Les agents d'IA de pointe montrent un potentiel croissant en tant qu'assistants de recherche scientifique, et pourraient finalement s'avérer utiles pour des workflows de recherche étendus et ouverts. Cependant, afin d'utiliser les agents pour des recherches novatrices, nous devons d'abord évaluer la fidélité et l'exactitude fondamentales de leur travail. Pour évaluer les agents en tant qu'assistants de recherche, nous présentons ReplicationBench, un cadre d'évaluation qui teste si les agents peuvent répliquer des articles de recherche entiers tirés de la littérature en astrophysique. L'astrophysique, où la recherche repose fortement sur des données d'archives et des études computationnelles tout en nécessitant peu d'expérimentation réelle, constitue un banc d'essai particulièrement utile pour les agents IA dans la recherche scientifique. Nous décomposons chaque article en tâches qui exigent des agents qu'ils répliquent les contributions fondamentales de l'article, incluant la configuration expérimentale, les dérivations, l'analyse des données et la base de code. Chaque tâche est co-développée avec les auteurs originaux de l'article et cible un résultat scientifique clé, permettant une évaluation objective à la fois de la fidélité (respect des méthodes originales) et de l'exactitude (précision technique des résultats). ReplicationBench est extrêmement difficile pour les modèles de langage de pointe actuels : même les modèles de langage les plus performants obtiennent un score inférieur à 20 %. Nous analysons les trajectoires de ReplicationBench en collaboration avec des experts du domaine et découvrons un ensemble riche et diversifié de modes de défaillance pour les agents dans la recherche scientifique. ReplicationBench établit le premier benchmark de tâches de recherche en astrophysique à l'échelle d'un article, validées par des experts, révèle des insights sur les performances des agents généralisables à d'autres domaines de la science axée sur les données, et fournit un cadre évolutif pour mesurer la fiabilité des agents IA dans la recherche scientifique.
English
Frontier AI agents show increasing promise as scientific research assistants, and may eventually be useful for extended, open-ended research workflows. However, in order to use agents for novel research, we must first assess the underlying faithfulness and correctness of their work. To evaluate agents as research assistants, we introduce ReplicationBench, an evaluation framework that tests whether agents can replicate entire research papers drawn from the astrophysics literature. Astrophysics, where research relies heavily on archival data and computational study while requiring little real-world experimentation, is a particularly useful testbed for AI agents in scientific research. We split each paper into tasks which require agents to replicate the paper's core contributions, including the experimental setup, derivations, data analysis, and codebase. Each task is co-developed with the original paper authors and targets a key scientific result, enabling objective evaluation of both faithfulness (adherence to original methods) and correctness (technical accuracy of results). ReplicationBench is extremely challenging for current frontier language models: even the best-performing language models score under 20%. We analyze ReplicationBench trajectories in collaboration with domain experts and find a rich, diverse set of failure modes for agents in scientific research. ReplicationBench establishes the first benchmark of paper-scale, expert-validated astrophysics research tasks, reveals insights about agent performance generalizable to other domains of data-driven science, and provides a scalable framework for measuring AI agents' reliability in scientific research.
PDF41December 1, 2025