ChatPaper.aiChatPaper

PRBench: Reprodução Integral de Artigos na Pesquisa em Física

PRBench: End-to-end Paper Reproduction in Physics Research

March 29, 2026
Autores: Shi Qiu, Junyi Deng, Yiwei Deng, Haoran Dong, Jieyu Fu, Mao Li, Zeyu Li, Zhaolong Zhang, Huiwen Zheng, Leidong Bao, Anqi Lv, Zihan Mo, Yadi Niu, Yiyang Peng, Yu Tian, Yili Wang, Ziyu Wang, Zi-Yu Wang, Jiashen Wei, Liuheng Wu, Aoran Xue, Leyi Yang, Guanglu Yuan, Xiarui Zhan, Jingjun Zhang, Zifan Zheng, Pengfei Liu, Linrui Zhen, Kaiyang Li, Qichang Li, Ziheng Zhou, Guo-En Nian, Yunwei Xiao, Qing-Hong Cao, Linjie Dai, Xu Feng, Peng Gao, Ying Gu, Chang Liu, Jia Liu, Ming-xing Luo, Yan-Qing Ma, Liang-You Peng, Huichao Song, Shufeng Wang, Chenxu Wang, Tao Wang, Yi-Nan Wang, Chengyin Wu, Pengwei Zhao, Hua Xing Zhu
cs.AI

Resumo

Os agentes de IA baseados em grandes modelos de linguagem exibem fortes capacidades de raciocínio e resolução de problemas, permitindo-lhes auxiliar tarefas de pesquisa científica, como derivação de fórmulas e geração de código. No entanto, a capacidade desses agentes de realizar reproduções de ponta a ponta a partir de artigos científicos reais permanece uma questão em aberto. Apresentamos o PRBench, um benchmark composto por 30 tarefas curadas por especialistas, abrangendo 11 subáreas da física. Cada tarefa exige que um agente compreenda a metodologia de um artigo publicado, implemente os algoritmos correspondentes do zero e produza resultados quantitativos compatíveis com a publicação original. Os agentes recebem apenas a instrução da tarefa e o conteúdo do artigo, operando em um ambiente de execução isolado. Todas as tarefas foram contribuídas por especialistas de domínio de mais de 20 grupos de pesquisa da Escola de Física da Universidade de Pequim, cada uma fundamentada em um artigo real publicado e validada por meio de reprodução de ponta a ponta com resultados verificados e critérios de pontuação detalhados. Utilizando um pipeline de avaliação agentificado, avaliamos um conjunto de agentes de codificação no PRBench e analisamos suas capacidades em dimensões-chave do raciocínio científico e execução. O agente de melhor desempenho, OpenAI Codex baseado no GPT-5.3-Codex, atinge uma pontuação média geral de 34%. Todos os agentes exibem taxa de sucesso zero em callback de ponta a ponta, com desempenho particularmente fraco em precisão de dados e correção do código. Identificamos ainda modos de falha sistemáticos, incluindo erros na implementação de fórmulas, incapacidade de depurar simulações numéricas e fabricação de dados de saída. No geral, o PRBench fornece um benchmark rigoroso para avaliar o progresso em direção à pesquisa científica autônoma.
English
AI agents powered by large language models exhibit strong reasoning and problem-solving capabilities, enabling them to assist scientific research tasks such as formula derivation and code generation. However, whether these agents can reliably perform end-to-end reproduction from real scientific papers remains an open question. We introduce PRBench, a benchmark of 30 expert-curated tasks spanning 11 subfields of physics. Each task requires an agent to comprehend the methodology of a published paper, implement the corresponding algorithms from scratch, and produce quantitative results matching the original publication. Agents are provided only with the task instruction and paper content, and operate in a sandboxed execution environment. All tasks are contributed by domain experts from over 20 research groups at the School of Physics, Peking University, each grounded in a real published paper and validated through end-to-end reproduction with verified ground-truth results and detailed scoring rubrics. Using an agentified assessment pipeline, we evaluate a set of coding agents on PRBench and analyze their capabilities across key dimensions of scientific reasoning and execution. The best-performing agent, OpenAI Codex powered by GPT-5.3-Codex, achieves a mean overall score of 34%. All agents exhibit a zero end-to-end callback success rate, with particularly poor performance in data accuracy and code correctness. We further identify systematic failure modes, including errors in formula implementation, inability to debug numerical simulations, and fabrication of output data. Overall, PRBench provides a rigorous benchmark for evaluating progress toward autonomous scientific research.
PDF292April 17, 2026