PRBench: Reproducción Integral de Artículos en Investigación Física
PRBench: End-to-end Paper Reproduction in Physics Research
March 29, 2026
Autores: Shi Qiu, Junyi Deng, Yiwei Deng, Haoran Dong, Jieyu Fu, Mao Li, Zeyu Li, Zhaolong Zhang, Huiwen Zheng, Leidong Bao, Anqi Lv, Zihan Mo, Yadi Niu, Yiyang Peng, Yu Tian, Yili Wang, Ziyu Wang, Zi-Yu Wang, Jiashen Wei, Liuheng Wu, Aoran Xue, Leyi Yang, Guanglu Yuan, Xiarui Zhan, Jingjun Zhang, Zifan Zheng, Pengfei Liu, Linrui Zhen, Kaiyang Li, Qichang Li, Ziheng Zhou, Guo-En Nian, Yunwei Xiao, Qing-Hong Cao, Linjie Dai, Xu Feng, Peng Gao, Ying Gu, Chang Liu, Jia Liu, Ming-xing Luo, Yan-Qing Ma, Liang-You Peng, Huichao Song, Shufeng Wang, Chenxu Wang, Tao Wang, Yi-Nan Wang, Chengyin Wu, Pengwei Zhao, Hua Xing Zhu
cs.AI
Resumen
Los agentes de inteligencia artificial impulsados por grandes modelos de lenguaje exhiben sólidas capacidades de razonamiento y resolución de problemas, lo que les permite asistir en tareas de investigación científica como la derivación de fórmulas y la generación de código. Sin embargo, si estos agentes pueden realizar de manera fiable una reproducción integral (end-to-end) a partir de artículos científicos reales sigue siendo una cuestión abierta. Presentamos PRBench, un benchmark que comprende 30 tareas seleccionadas por expertos, abarcando 11 subcampos de la física. Cada tarea requiere que un agente comprenda la metodología de un artículo publicado, implemente los algoritmos correspondientes desde cero y produzca resultados cuantitativos que coincidan con la publicación original. A los agentes solo se les proporciona la instrucción de la tarea y el contenido del artículo, y operan en un entorno de ejecución aislado (sandbox). Todas las tareas han sido contribuidas por expertos de dominio de más de 20 grupos de investigación de la Escuela de Física de la Universidad de Pekín, cada una basada en un artículo publicado real y validada mediante una reproducción integral con resultados de referencia verificados y rúbricas de puntuación detalladas. Utilizando una canalización de evaluación agentificada, evaluamos un conjunto de agentes de codificación en PRBench y analizamos sus capacidades en dimensiones clave del razonamiento y la ejecución científica. El agente con mejor rendimiento, OpenAI Codex impulsado por GPT-5.3-Codex, alcanza una puntuación media global del 34%. Todos los agentes exhiben una tasa de éxito de reproducción integral (callback) del cero por ciento, con un rendimiento particularmente deficiente en la precisión de los datos y la corrección del código. Además, identificamos modos de fallo sistemáticos, incluyendo errores en la implementación de fórmulas, incapacidad para depurar simulaciones numéricas y fabricación de datos de salida. En general, PRBench proporciona un benchmark riguroso para evaluar el progreso hacia la investigación científica autónoma.
English
AI agents powered by large language models exhibit strong reasoning and problem-solving capabilities, enabling them to assist scientific research tasks such as formula derivation and code generation. However, whether these agents can reliably perform end-to-end reproduction from real scientific papers remains an open question. We introduce PRBench, a benchmark of 30 expert-curated tasks spanning 11 subfields of physics. Each task requires an agent to comprehend the methodology of a published paper, implement the corresponding algorithms from scratch, and produce quantitative results matching the original publication. Agents are provided only with the task instruction and paper content, and operate in a sandboxed execution environment. All tasks are contributed by domain experts from over 20 research groups at the School of Physics, Peking University, each grounded in a real published paper and validated through end-to-end reproduction with verified ground-truth results and detailed scoring rubrics. Using an agentified assessment pipeline, we evaluate a set of coding agents on PRBench and analyze their capabilities across key dimensions of scientific reasoning and execution. The best-performing agent, OpenAI Codex powered by GPT-5.3-Codex, achieves a mean overall score of 34%. All agents exhibit a zero end-to-end callback success rate, with particularly poor performance in data accuracy and code correctness. We further identify systematic failure modes, including errors in formula implementation, inability to debug numerical simulations, and fabrication of output data. Overall, PRBench provides a rigorous benchmark for evaluating progress toward autonomous scientific research.