ChatPaper.aiChatPaper

ReplicationBench:AIエージェントは天体物理学研究論文を再現できるか?

ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?

October 28, 2025
著者: Christine Ye, Sihan Yuan, Suchetha Cooray, Steven Dillmann, Ian L. V. Roque, Dalya Baron, Philipp Frank, Sergio Martin-Alvarez, Nolan Koblischke, Frank J Qu, Diyi Yang, Risa Wechsler, Ioana Ciuca
cs.AI

要旨

フロンティアAIエージェントは、科学研究アシスタントとしての可能性を高めており、将来的には長期的でオープンエンドな研究ワークフローにおいて有用となる可能性がある。しかし、新規研究にエージェントを活用するためには、まずその成果の根底にある忠実性と正確性を評価しなければならない。研究アシスタントとしてのエージェントを評価するため、我々はReplicationBenchを提案する。これは、天体物理学文献から抽出した研究論文全体をエージェントが再現できるかどうかをテストする評価フレームワークである。天体物理学は、研究がアーカイブデータと計算研究に大きく依存し、現実世界での実験をほとんど必要としないため、科学研究におけるAIエージェントの特に有用なテストベッドとなる。各論文を、実験設定、式の導出、データ分析、コードベースなど、論文の核心的な貢献を再現することをエージェントに求めるタスクに分割する。各タスクは原論文の著者と共同で開発され、重要な科学的成果を対象とするため、忠実性(元の手法への準拠)と正確性(結果の技術的正確さ)の双方を客観的に評価できる。ReplicationBenchは現在の最先端言語モデルにとって極めて難易度が高く、最高性能の言語モデルであっても20%未満のスコアである。ドメイン専門家と協力してReplicationBenchの実行軌跡を分析した結果、科学研究におけるエージェントの多様で豊富な失敗モードが明らかになった。ReplicationBenchは、論文規模の専門家検証済み天体物理学研究タスクにおける最初のベンチマークを確立し、データ駆動型科学の他の分野にも一般化可能なエージェント性能に関する知見を提示し、科学研究におけるAIエージェントの信頼性を測定するためのスケーラブルなフレームワークを提供する。
English
Frontier AI agents show increasing promise as scientific research assistants, and may eventually be useful for extended, open-ended research workflows. However, in order to use agents for novel research, we must first assess the underlying faithfulness and correctness of their work. To evaluate agents as research assistants, we introduce ReplicationBench, an evaluation framework that tests whether agents can replicate entire research papers drawn from the astrophysics literature. Astrophysics, where research relies heavily on archival data and computational study while requiring little real-world experimentation, is a particularly useful testbed for AI agents in scientific research. We split each paper into tasks which require agents to replicate the paper's core contributions, including the experimental setup, derivations, data analysis, and codebase. Each task is co-developed with the original paper authors and targets a key scientific result, enabling objective evaluation of both faithfulness (adherence to original methods) and correctness (technical accuracy of results). ReplicationBench is extremely challenging for current frontier language models: even the best-performing language models score under 20%. We analyze ReplicationBench trajectories in collaboration with domain experts and find a rich, diverse set of failure modes for agents in scientific research. ReplicationBench establishes the first benchmark of paper-scale, expert-validated astrophysics research tasks, reveals insights about agent performance generalizable to other domains of data-driven science, and provides a scalable framework for measuring AI agents' reliability in scientific research.
PDF41December 1, 2025