ReplicationBench: 인공지능 에이전트가 천체물리학 연구 논문을 재현할 수 있을까?
ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?
October 28, 2025
저자: Christine Ye, Sihan Yuan, Suchetha Cooray, Steven Dillmann, Ian L. V. Roque, Dalya Baron, Philipp Frank, Sergio Martin-Alvarez, Nolan Koblischke, Frank J Qu, Diyi Yang, Risa Wechsler, Ioana Ciuca
cs.AI
초록
프론티어 AI 에이전트는 과학 연구 보조자로서 점점 더 가능성을 보여주며, 궁극적으로는 장기적이고 개방형 연구 워크플로우에 유용하게 활용될 수 있습니다. 그러나 새로운 연구에 에이전트를 사용하기 위해서는 먼저 그 작업의 근본적인 신뢰성과 정확성을 평가해야 합니다. 연구 보조자로서의 에이전트를 평가하기 위해 우리는 천체물리학 문헌에서 발췌한 전체 연구 논문을 에이전트가 재현할 수 있는지 테스트하는 평가 프레임워크인 ReplicationBench를 소개합니다. 천체물리학은 연구가 아카이브 데이터와 계산적 연구에 크게 의존하면서 실제 실험은 거의 필요로 하지 않기 때문에 과학 연구에서 AI 에이전트에 대한 특히 유용한 테스트베드입니다. 우리는 각 논문을 에이전트가 논문의 핵심 기여 내용, 즉 실험 설정, 공식 유도, 데이터 분석, 코드베이스를 재현해야 하는 작업으로 분할합니다. 각 작업은 원 논문 저자들과 공동으로 개발되어 주요 과학적 결과를 대상으로 하며, 신뢰성(원래 방법 준수 여부)과 정확성(결과의 기술적 정확성) 모두를 객관적으로 평가할 수 있게 합니다. ReplicationBench는 현재 최첨단 언어 모델에게 매우 어려운 과제이며, 가장 성능이 좋은 언어 모델도 20% 미만의 점수를 기록합니다. 우리는 도메인 전문가들과 협력하여 ReplicationBench 실행 궤적을 분석하고 과학 연구에서 에이전트의 풍부하고 다양한 실패 모드 집합을 발견했습니다. ReplicationBench는 논문 규모의 전문가 검증 천체물리학 연구 과제에 대한 최초의 벤치마크를 확립하고, 데이터 중심 과학의 다른 영역에도 일반화 가능한 에이전트 성능에 대한 통찰력을 제시하며, 과학 연구에서 AI 에이전트의 신뢰성을 측정하기 위한 확장 가능한 프레임워크를 제공합니다.
English
Frontier AI agents show increasing promise as scientific research assistants,
and may eventually be useful for extended, open-ended research workflows.
However, in order to use agents for novel research, we must first assess the
underlying faithfulness and correctness of their work. To evaluate agents as
research assistants, we introduce ReplicationBench, an evaluation framework
that tests whether agents can replicate entire research papers drawn from the
astrophysics literature. Astrophysics, where research relies heavily on
archival data and computational study while requiring little real-world
experimentation, is a particularly useful testbed for AI agents in scientific
research. We split each paper into tasks which require agents to replicate the
paper's core contributions, including the experimental setup, derivations, data
analysis, and codebase. Each task is co-developed with the original paper
authors and targets a key scientific result, enabling objective evaluation of
both faithfulness (adherence to original methods) and correctness (technical
accuracy of results). ReplicationBench is extremely challenging for current
frontier language models: even the best-performing language models score under
20%. We analyze ReplicationBench trajectories in collaboration with domain
experts and find a rich, diverse set of failure modes for agents in scientific
research. ReplicationBench establishes the first benchmark of paper-scale,
expert-validated astrophysics research tasks, reveals insights about agent
performance generalizable to other domains of data-driven science, and provides
a scalable framework for measuring AI agents' reliability in scientific
research.