ChatPaper.aiChatPaper

ReplicationBench: Os Agentes de IA Podem Replicar Artigos de Pesquisa em Astrofísica?

ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?

October 28, 2025
Autores: Christine Ye, Sihan Yuan, Suchetha Cooray, Steven Dillmann, Ian L. V. Roque, Dalya Baron, Philipp Frank, Sergio Martin-Alvarez, Nolan Koblischke, Frank J Qu, Diyi Yang, Risa Wechsler, Ioana Ciuca
cs.AI

Resumo

Os agentes de IA de fronteira demonstram potencial crescente como assistentes de pesquisa científica, podendo eventualmente ser úteis para fluxos de trabalho de pesquisa estendidos e abertos. No entanto, para utilizar agentes em pesquisas inovadoras, devemos primeiro avaliar a fidelidade e a correção subjacentes de seu trabalho. Para avaliar agentes como assistentes de pesquisa, apresentamos o ReplicationBench, uma estrutura de avaliação que testa se os agentes conseguem replicar artigos de pesquisa inteiros extraídos da literatura da astrofísica. A astrofísica, onde a pesquisa depende fortemente de dados de arquivo e estudos computacionais, exigindo pouca experimentação no mundo real, é um campo de teste particularmente útil para agentes de IA na pesquisa científica. Dividimos cada artigo em tarefas que exigem que os agentes repliquem as contribuições centrais do artigo, incluindo a configuração experimental, derivações, análise de dados e base de código. Cada tarefa é codesenvolvida com os autores originais do artigo e visa um resultado científico chave, permitindo a avaliação objetiva tanto da fidelidade (adesão aos métodos originais) quanto da correção (precisão técnica dos resultados). O ReplicationBench é extremamente desafiador para os atuais modelos de linguagem de fronteira: mesmo os modelos de linguagem com melhor desempenho pontuam abaixo de 20%. Analisamos as trajetórias do ReplicationBench em colaboração com especialistas do domínio e encontramos um conjunto rico e diversificado de modos de falha para agentes na pesquisa científica. O ReplicationBench estabelece o primeiro benchmark de tarefas de pesquisa em astrofísica em escala de artigo, validadas por especialistas, revela insights sobre o desempenho de agentes generalizáveis para outros domínios da ciência orientada por dados e fornece uma estrutura escalável para medir a confiabilidade de agentes de IA na pesquisa científica.
English
Frontier AI agents show increasing promise as scientific research assistants, and may eventually be useful for extended, open-ended research workflows. However, in order to use agents for novel research, we must first assess the underlying faithfulness and correctness of their work. To evaluate agents as research assistants, we introduce ReplicationBench, an evaluation framework that tests whether agents can replicate entire research papers drawn from the astrophysics literature. Astrophysics, where research relies heavily on archival data and computational study while requiring little real-world experimentation, is a particularly useful testbed for AI agents in scientific research. We split each paper into tasks which require agents to replicate the paper's core contributions, including the experimental setup, derivations, data analysis, and codebase. Each task is co-developed with the original paper authors and targets a key scientific result, enabling objective evaluation of both faithfulness (adherence to original methods) and correctness (technical accuracy of results). ReplicationBench is extremely challenging for current frontier language models: even the best-performing language models score under 20%. We analyze ReplicationBench trajectories in collaboration with domain experts and find a rich, diverse set of failure modes for agents in scientific research. ReplicationBench establishes the first benchmark of paper-scale, expert-validated astrophysics research tasks, reveals insights about agent performance generalizable to other domains of data-driven science, and provides a scalable framework for measuring AI agents' reliability in scientific research.
PDF51February 7, 2026