ChatPaper.aiChatPaper

PRBench: End-to-end Reproduktion von Fachartikeln in der physikalischen Forschung

PRBench: End-to-end Paper Reproduction in Physics Research

March 29, 2026
Autoren: Shi Qiu, Junyi Deng, Yiwei Deng, Haoran Dong, Jieyu Fu, Mao Li, Zeyu Li, Zhaolong Zhang, Huiwen Zheng, Leidong Bao, Anqi Lv, Zihan Mo, Yadi Niu, Yiyang Peng, Yu Tian, Yili Wang, Ziyu Wang, Zi-Yu Wang, Jiashen Wei, Liuheng Wu, Aoran Xue, Leyi Yang, Guanglu Yuan, Xiarui Zhan, Jingjun Zhang, Zifan Zheng, Pengfei Liu, Linrui Zhen, Kaiyang Li, Qichang Li, Ziheng Zhou, Guo-En Nian, Yunwei Xiao, Qing-Hong Cao, Linjie Dai, Xu Feng, Peng Gao, Ying Gu, Chang Liu, Jia Liu, Ming-xing Luo, Yan-Qing Ma, Liang-You Peng, Huichao Song, Shufeng Wang, Chenxu Wang, Tao Wang, Yi-Nan Wang, Chengyin Wu, Pengwei Zhao, Hua Xing Zhu
cs.AI

Zusammenfassung

KI-Agenten, die auf großen Sprachmodellen basieren, zeigen starke Fähigkeiten im logischen Denken und Problemlösen, wodurch sie wissenschaftliche Forschungsaufgaben wie Formelableitung und Codegenerierung unterstützen können. Ob diese Agenten jedoch zuverlässig End-to-End-Reproduktionen aus echten wissenschaftlichen Artikeln durchführen können, bleibt eine offene Frage. Wir stellen PRBench vor, einen Benchmark mit 30 von Experten kuratierten Aufgaben aus 11 Teilgebieten der Physik. Jede Aufgabe erfordert, dass ein Agent die Methodik einer veröffentlichten Arbeit versteht, die entsprechenden Algorithmen von Grund auf implementiert und quantitative Ergebnisse erzeugt, die mit der Originalpublikation übereinstimmen. Den Agenten werden nur die Aufgabenstellung und der Artikelinhalt zur Verfügung gestellt, und sie operieren in einer abgeschirmten Ausführungsumgebung. Alle Aufgaben wurden von Fachexperten aus über 20 Forschungsgruppen an der School of Physics der Peking Universität beigesteuert, basieren jeweils auf einer tatsächlich veröffentlichten Arbeit und wurden durch End-to-End -Reproduktion mit verifizierten Ground-Truth-Ergebnissen und detaillierten Bewertungsrubriken validiert. Unter Verwendung einer agentifizierten Bewertungspipeline evaluieren wir eine Reihe von Coding-Agenten auf PRBench und analysieren ihre Fähigkeiten in wichtigen Dimensionen des wissenschaftlichen Denkens und der Ausführung. Der leistungsstärkste Agent, OpenAI Codex, betrieben mit GPT-5.3-Codex, erreicht eine durchschnittliche Gesamtpunktzahl von 34 %. Alle Agenten weisen eine Erfolgsquote von null bei der End-to-End-Reproduktion auf, mit besonders schwachen Leistungen in der Datengenauigkeit und Codekorrektheit. Wir identifizieren weiterhin systematische Fehlermodi, darunter Fehler bei der Formelimplementierung, die Unfähigkeit, numerische Simulationen zu debuggen, und das Fälschen von Ausgabedaten. Insgesamt bietet PRBench einen rigorosen Benchmark, um Fortschritte in Richtung autonomer wissenschaftlicher Forschung zu bewerten.
English
AI agents powered by large language models exhibit strong reasoning and problem-solving capabilities, enabling them to assist scientific research tasks such as formula derivation and code generation. However, whether these agents can reliably perform end-to-end reproduction from real scientific papers remains an open question. We introduce PRBench, a benchmark of 30 expert-curated tasks spanning 11 subfields of physics. Each task requires an agent to comprehend the methodology of a published paper, implement the corresponding algorithms from scratch, and produce quantitative results matching the original publication. Agents are provided only with the task instruction and paper content, and operate in a sandboxed execution environment. All tasks are contributed by domain experts from over 20 research groups at the School of Physics, Peking University, each grounded in a real published paper and validated through end-to-end reproduction with verified ground-truth results and detailed scoring rubrics. Using an agentified assessment pipeline, we evaluate a set of coding agents on PRBench and analyze their capabilities across key dimensions of scientific reasoning and execution. The best-performing agent, OpenAI Codex powered by GPT-5.3-Codex, achieves a mean overall score of 34%. All agents exhibit a zero end-to-end callback success rate, with particularly poor performance in data accuracy and code correctness. We further identify systematic failure modes, including errors in formula implementation, inability to debug numerical simulations, and fabrication of output data. Overall, PRBench provides a rigorous benchmark for evaluating progress toward autonomous scientific research.
PDF231April 1, 2026