ReplicationBench: Могут ли ИИ-агенты воспроизводить научные статьи по астрофизике?
ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?
October 28, 2025
Авторы: Christine Ye, Sihan Yuan, Suchetha Cooray, Steven Dillmann, Ian L. V. Roque, Dalya Baron, Philipp Frank, Sergio Martin-Alvarez, Nolan Koblischke, Frank J Qu, Diyi Yang, Risa Wechsler, Ioana Ciuca
cs.AI
Аннотация
Передовые системы искусственного интеллекта демонстрируют растущий потенциал в качестве ассистентов для научных исследований и в перспективе могут быть полезны в рамках расширенных, открытых исследовательских процессов. Однако, чтобы использовать такие системы для проведения новых исследований, необходимо сначала оценить достоверность и корректность их работы. Для оценки ИИ-ассистентов мы представляем ReplicationBench — систему оценки, которая проверяет способность систем воспроизводить полные научные статьи из области астрофизики. Астрофизика, где исследования в значительной степени опираются на архивные данные и вычислительные методы, практически не требуя натурных экспериментов, представляет собой особенно полезный испытательный полигон для ИИ в науке. Мы разбиваем каждую статью на задачи, требующие от систем воспроизведения ключевых результатов работы, включая экспериментальную установку, выводы формул, анализ данных и код. Каждая задача разрабатывается совместно с авторами исходной статьи и нацелена на ключевой научный результат, что позволяет объективно оценивать как достоверность (следование исходным методам), так и корректность (техническую точность результатов). ReplicationBench является чрезвычайно сложной задачей для современных передовых языковых моделей: даже наиболее производительные модели набирают менее 20%. Мы анализируем траектории выполнения задач в ReplicationBench совместно с экспертами в предметной области и выявляем множество разнообразных типов сбоев, характерных для ИИ-систем в научных исследованиях. ReplicationBench устанавливает первый бенчмарк для задач астрофизических исследований в масштабе целой статьи, валидированный экспертами, раскрывает инсайты о производительности систем, применимые к другим областям data-driven науки, и предоставляет масштабируемую структуру для измерения надежности ИИ-систем в научных исследованиях.
English
Frontier AI agents show increasing promise as scientific research assistants,
and may eventually be useful for extended, open-ended research workflows.
However, in order to use agents for novel research, we must first assess the
underlying faithfulness and correctness of their work. To evaluate agents as
research assistants, we introduce ReplicationBench, an evaluation framework
that tests whether agents can replicate entire research papers drawn from the
astrophysics literature. Astrophysics, where research relies heavily on
archival data and computational study while requiring little real-world
experimentation, is a particularly useful testbed for AI agents in scientific
research. We split each paper into tasks which require agents to replicate the
paper's core contributions, including the experimental setup, derivations, data
analysis, and codebase. Each task is co-developed with the original paper
authors and targets a key scientific result, enabling objective evaluation of
both faithfulness (adherence to original methods) and correctness (technical
accuracy of results). ReplicationBench is extremely challenging for current
frontier language models: even the best-performing language models score under
20%. We analyze ReplicationBench trajectories in collaboration with domain
experts and find a rich, diverse set of failure modes for agents in scientific
research. ReplicationBench establishes the first benchmark of paper-scale,
expert-validated astrophysics research tasks, reveals insights about agent
performance generalizable to other domains of data-driven science, and provides
a scalable framework for measuring AI agents' reliability in scientific
research.