PRBench: End-to-end Reproduceren van Wetenschappelijke Artikelen in Natuurkundig Onderzoek
PRBench: End-to-end Paper Reproduction in Physics Research
March 29, 2026
Auteurs: Shi Qiu, Junyi Deng, Yiwei Deng, Haoran Dong, Jieyu Fu, Mao Li, Zeyu Li, Zhaolong Zhang, Huiwen Zheng, Leidong Bao, Anqi Lv, Zihan Mo, Yadi Niu, Yiyang Peng, Yu Tian, Yili Wang, Ziyu Wang, Zi-Yu Wang, Jiashen Wei, Liuheng Wu, Aoran Xue, Leyi Yang, Guanglu Yuan, Xiarui Zhan, Jingjun Zhang, Zifan Zheng, Pengfei Liu, Linrui Zhen, Kaiyang Li, Qichang Li, Ziheng Zhou, Guo-En Nian, Yunwei Xiao, Qing-Hong Cao, Linjie Dai, Xu Feng, Peng Gao, Ying Gu, Chang Liu, Jia Liu, Ming-xing Luo, Yan-Qing Ma, Liang-You Peng, Huichao Song, Shufeng Wang, Chenxu Wang, Tao Wang, Yi-Nan Wang, Chengyin Wu, Pengwei Zhao, Hua Xing Zhu
cs.AI
Samenvatting
Door grote taalmodelen aangedreven AI-agenten vertonen sterke redeneer- en probleemoplossende vermogens, waardoor ze wetenschappelijke onderzoektaken kunnen ondersteunen zoals formule-afleiding en codegeneratie. Of deze agenten echter betrouwbaar end-to-end-reproductie vanuit echte wetenschappelijke artikelen kunnen uitvoeren, blijft een open vraag. Wij introduceren PRBench, een benchmark met 30 door experts samengestelde taken verspreid over 11 subvelden van de natuurkunde. Elke taak vereist dat een agent de methodologie van een gepubliceerd artikel begrijpt, de bijbehorende algoritmes vanaf nul implementeert en kwantitatieve resultaten produceert die overeenkomen met de oorspronkelijke publicatie. Agenten krijgen alleen de taakinstructie en artikelinhoud aangeboden en opereren in een afgeschermde uitvoeringsomgeving. Alle taken zijn bijgedragen door domeinexperts van meer dan 20 onderzoeksgroepen aan de School of Physics van de Peking University, elk gebaseerd op een echt gepubliceerd artikel en gevalideerd door end-to-end-reproductie met geverifieerde grondwaarheid-resultaten en gedetailleerde beoordelingsrubrics. Met behulp van een geautomatiseerd beoordelingsproces evalueren we een reeks coderingsagenten op PRBench en analyseren we hun capaciteiten op belangrijke dimensies van wetenschappelijk redeneren en uitvoering. De best presterende agent, OpenAI Codex aangedreven door GPT-5.3-Codex, behaalt een gemiddelde algemene score van 34%. Alle agenten vertonen een succespercentage van nul voor end-to-end-reproductie, met bijzonder zwakke prestaties op het gebied van gegevensnauwkeurigheid en codecorrectheid. We identificeren verder systematische faalwijzen, waaronder fouten in formule-implementatie, onvermogen om numerieke simulaties te debuggen en vervalsing van uitvoergegevens. Over het geheel genomen biedt PRBench een rigoureuze benchmark voor het evalueren van vooruitgang richting autonoom wetenschappelijk onderzoek.
English
AI agents powered by large language models exhibit strong reasoning and problem-solving capabilities, enabling them to assist scientific research tasks such as formula derivation and code generation. However, whether these agents can reliably perform end-to-end reproduction from real scientific papers remains an open question. We introduce PRBench, a benchmark of 30 expert-curated tasks spanning 11 subfields of physics. Each task requires an agent to comprehend the methodology of a published paper, implement the corresponding algorithms from scratch, and produce quantitative results matching the original publication. Agents are provided only with the task instruction and paper content, and operate in a sandboxed execution environment. All tasks are contributed by domain experts from over 20 research groups at the School of Physics, Peking University, each grounded in a real published paper and validated through end-to-end reproduction with verified ground-truth results and detailed scoring rubrics. Using an agentified assessment pipeline, we evaluate a set of coding agents on PRBench and analyze their capabilities across key dimensions of scientific reasoning and execution. The best-performing agent, OpenAI Codex powered by GPT-5.3-Codex, achieves a mean overall score of 34%. All agents exhibit a zero end-to-end callback success rate, with particularly poor performance in data accuracy and code correctness. We further identify systematic failure modes, including errors in formula implementation, inability to debug numerical simulations, and fabrication of output data. Overall, PRBench provides a rigorous benchmark for evaluating progress toward autonomous scientific research.