PRBench : Reproduction de papiers de bout en bout dans la recherche en physique
PRBench: End-to-end Paper Reproduction in Physics Research
March 29, 2026
Auteurs: Shi Qiu, Junyi Deng, Yiwei Deng, Haoran Dong, Jieyu Fu, Mao Li, Zeyu Li, Zhaolong Zhang, Huiwen Zheng, Leidong Bao, Anqi Lv, Zihan Mo, Yadi Niu, Yiyang Peng, Yu Tian, Yili Wang, Ziyu Wang, Zi-Yu Wang, Jiashen Wei, Liuheng Wu, Aoran Xue, Leyi Yang, Guanglu Yuan, Xiarui Zhan, Jingjun Zhang, Zifan Zheng, Pengfei Liu, Linrui Zhen, Kaiyang Li, Qichang Li, Ziheng Zhou, Guo-En Nian, Yunwei Xiao, Qing-Hong Cao, Linjie Dai, Xu Feng, Peng Gao, Ying Gu, Chang Liu, Jia Liu, Ming-xing Luo, Yan-Qing Ma, Liang-You Peng, Huichao Song, Shufeng Wang, Chenxu Wang, Tao Wang, Yi-Nan Wang, Chengyin Wu, Pengwei Zhao, Hua Xing Zhu
cs.AI
Résumé
Les agents IA alimentés par de grands modèles de langage démontrent de solides capacités de raisonnement et de résolution de problèmes, leur permettant d'assister des tâches de recherche scientifique telles que la dérivation de formules et la génération de code. Cependant, la capacité de ces agents à réaliser de manière fiable une reproduction de bout en bout à partir d'articles scientifiques réels reste une question ouverte. Nous présentons PRBench, un benchmark de 30 tâches sélectionnées par des experts couvrant 11 sous-domaines de la physique. Chaque tâche requiert qu'un agent comprenne la méthodologie d'un article publié, implémente les algorithmes correspondants à partir de zéro, et produise des résultats quantitatifs correspondant à la publication originale. Les agents ne disposent que de l'instruction de la tâche et du contenu de l'article, et opèrent dans un environnement d'exécution sandboxé. Toutes les tâches sont contribuées par des experts du domaine provenant de plus de 20 groupes de recherche de l'École de physique de l'Université de Pékin, chacune étant ancrée dans un article publié réel et validée par une reproduction de bout en bout avec des résultats de référence vérifiés et des grilles d'évaluation détaillées. En utilisant un pipeline d'évaluation agentifié, nous évaluons un ensemble d'agents de codage sur PRBench et analysons leurs capacités selon les dimensions clés du raisonnement scientifique et de l'exécution. L'agent le plus performant, OpenAI Codex alimenté par GPT-5.3-Codex, atteint un score global moyen de 34 %. Tous les agents affichent un taux de succès de rappel de bout en bout de zéro, avec des performances particulièrement faibles en précision des données et en exactitude du code. Nous identifions en outre des modes d'échec systématiques, incluant des erreurs dans l'implémentation des formules, une incapacité à déboguer des simulations numériques et une fabrication de données de sortie. Globalement, PRBench fournit un benchmark rigoureux pour évaluer les progrès vers la recherche scientifique autonome.
English
AI agents powered by large language models exhibit strong reasoning and problem-solving capabilities, enabling them to assist scientific research tasks such as formula derivation and code generation. However, whether these agents can reliably perform end-to-end reproduction from real scientific papers remains an open question. We introduce PRBench, a benchmark of 30 expert-curated tasks spanning 11 subfields of physics. Each task requires an agent to comprehend the methodology of a published paper, implement the corresponding algorithms from scratch, and produce quantitative results matching the original publication. Agents are provided only with the task instruction and paper content, and operate in a sandboxed execution environment. All tasks are contributed by domain experts from over 20 research groups at the School of Physics, Peking University, each grounded in a real published paper and validated through end-to-end reproduction with verified ground-truth results and detailed scoring rubrics. Using an agentified assessment pipeline, we evaluate a set of coding agents on PRBench and analyze their capabilities across key dimensions of scientific reasoning and execution. The best-performing agent, OpenAI Codex powered by GPT-5.3-Codex, achieves a mean overall score of 34%. All agents exhibit a zero end-to-end callback success rate, with particularly poor performance in data accuracy and code correctness. We further identify systematic failure modes, including errors in formula implementation, inability to debug numerical simulations, and fabrication of output data. Overall, PRBench provides a rigorous benchmark for evaluating progress toward autonomous scientific research.