ReplicationBench: ¿Pueden los agentes de IA replicar artículos de investigación en astrofísica?
ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?
October 28, 2025
Autores: Christine Ye, Sihan Yuan, Suchetha Cooray, Steven Dillmann, Ian L. V. Roque, Dalya Baron, Philipp Frank, Sergio Martin-Alvarez, Nolan Koblischke, Frank J Qu, Diyi Yang, Risa Wechsler, Ioana Ciuca
cs.AI
Resumen
Los agentes de IA de vanguardia muestran un potencial creciente como asistentes de investigación científica, y eventualmente podrían ser útiles para flujos de trabajo de investigación extensos y de carácter abierto. Sin embargo, para utilizar agentes en investigación novedosa, primero debemos evaluar la fidelidad subyacente y la corrección de su trabajo. Para evaluar a los agentes como asistentes de investigación, presentamos ReplicationBench, un marco de evaluación que prueba si los agentes pueden replicar artículos de investigación completos extraídos de la literatura astrofísica. La astrofísica, donde la investigación depende en gran medida de datos de archivo y estudios computacionales mientras requiere poca experimentación en el mundo real, es un banco de pruebas particularmente útil para los agentes de IA en la investigación científica. Dividimos cada artículo en tareas que requieren que los agentes repliquen las contribuciones centrales del artículo, incluyendo la configuración experimental, derivaciones, análisis de datos y base de código. Cada tarea es codesarrollada con los autores originales del artículo y se enfoca en un resultado científico clave, permitiendo una evaluación objetiva tanto de la fidelidad (adherencia a los métodos originales) como de la corrección (precisión técnica de los resultados). ReplicationBench es extremadamente desafiante para los modelos de lenguaje de vanguardia actuales: incluso los modelos de lenguaje con mejor rendimiento obtienen puntajes inferiores al 20%. Analizamos las trayectorias de ReplicationBench en colaboración con expertos en el dominio y encontramos un conjunto rico y diverso de modos de fallo para los agentes en la investigación científica. ReplicationBench establece el primer benchmark de tareas de investigación en astrofísica, validadas por expertos y a escala de artículo, revela información sobre el rendimiento de los agentes generalizable a otros dominios de la ciencia basada en datos, y proporciona un marco escalable para medir la confiabilidad de los agentes de IA en la investigación científica.
English
Frontier AI agents show increasing promise as scientific research assistants,
and may eventually be useful for extended, open-ended research workflows.
However, in order to use agents for novel research, we must first assess the
underlying faithfulness and correctness of their work. To evaluate agents as
research assistants, we introduce ReplicationBench, an evaluation framework
that tests whether agents can replicate entire research papers drawn from the
astrophysics literature. Astrophysics, where research relies heavily on
archival data and computational study while requiring little real-world
experimentation, is a particularly useful testbed for AI agents in scientific
research. We split each paper into tasks which require agents to replicate the
paper's core contributions, including the experimental setup, derivations, data
analysis, and codebase. Each task is co-developed with the original paper
authors and targets a key scientific result, enabling objective evaluation of
both faithfulness (adherence to original methods) and correctness (technical
accuracy of results). ReplicationBench is extremely challenging for current
frontier language models: even the best-performing language models score under
20%. We analyze ReplicationBench trajectories in collaboration with domain
experts and find a rich, diverse set of failure modes for agents in scientific
research. ReplicationBench establishes the first benchmark of paper-scale,
expert-validated astrophysics research tasks, reveals insights about agent
performance generalizable to other domains of data-driven science, and provides
a scalable framework for measuring AI agents' reliability in scientific
research.