PRBench: Riproduzione End-to-end di Articoli nella Ricerca Fisica
PRBench: End-to-end Paper Reproduction in Physics Research
March 29, 2026
Autori: Shi Qiu, Junyi Deng, Yiwei Deng, Haoran Dong, Jieyu Fu, Mao Li, Zeyu Li, Zhaolong Zhang, Huiwen Zheng, Leidong Bao, Anqi Lv, Zihan Mo, Yadi Niu, Yiyang Peng, Yu Tian, Yili Wang, Ziyu Wang, Zi-Yu Wang, Jiashen Wei, Liuheng Wu, Aoran Xue, Leyi Yang, Guanglu Yuan, Xiarui Zhan, Jingjun Zhang, Zifan Zheng, Pengfei Liu, Linrui Zhen, Kaiyang Li, Qichang Li, Ziheng Zhou, Guo-En Nian, Yunwei Xiao, Qing-Hong Cao, Linjie Dai, Xu Feng, Peng Gao, Ying Gu, Chang Liu, Jia Liu, Ming-xing Luo, Yan-Qing Ma, Liang-You Peng, Huichao Song, Shufeng Wang, Chenxu Wang, Tao Wang, Yi-Nan Wang, Chengyin Wu, Pengwei Zhao, Hua Xing Zhu
cs.AI
Abstract
Gli agenti di intelligenza artificiale basati su grandi modelli linguistici dimostrano solide capacità di ragionamento e problem solving, consentendo loro di assistere compiti di ricerca scientifica come la derivazione di formule e la generazione di codice. Tuttavia, se questi agenti possano riprodurre in modo affidabile articoli scientifici reali in modo end-to-end rimane una questione aperta. Presentiamo PRBench, un benchmark di 30 compiti selezionati da esperti, che abbraccia 11 sottocampi della fisica. Ogni compito richiede a un agente di comprendere la metodologia di un articolo pubblicato, implementare da zero gli algoritmi corrispondenti e produrre risultati quantitativi che corrispondano alla pubblicazione originale. Agli agenti vengono fornite solo le istruzioni del compito e il contenuto dell'articolo, e operano in un ambiente di esecuzione sandbox. Tutti i compiti sono stati contribuiti da esperti di dominio provenienti da oltre 20 gruppi di ricerca della Scuola di Fisica dell'Università di Pechino, ciascuno basato su un articolo reale pubblicato e validato attraverso una riproduzione end-to-end con risultati di verifica verificati e griglie di valutazione dettagliate. Utilizzando una pipeline di valutazione agentizzata, valutiamo una serie di agenti di codifica su PRBench e analizziamo le loro capacità attraverso le dimensioni chiave del ragionamento scientifico e dell'esecuzione. L'agente con le migliori prestazioni, OpenAI Codex basato su GPT-5.3-Codex, raggiunge un punteggio medio complessivo del 34%. Tutti gli agenti mostrano una percentuale di successo di callback end-to-end pari a zero, con prestazioni particolarmente scarse in termini di accuratezza dei dati e correttezza del codice. Identifichiamo ulteriormente modalità di fallimento sistematiche, inclusi errori nell'implementazione delle formule, incapacità di eseguire il debug di simulazioni numeriche e fabbricazione di dati di output. Nel complesso, PRBench fornisce un benchmark rigoroso per valutare i progressi verso la ricerca scientifica autonoma.
English
AI agents powered by large language models exhibit strong reasoning and problem-solving capabilities, enabling them to assist scientific research tasks such as formula derivation and code generation. However, whether these agents can reliably perform end-to-end reproduction from real scientific papers remains an open question. We introduce PRBench, a benchmark of 30 expert-curated tasks spanning 11 subfields of physics. Each task requires an agent to comprehend the methodology of a published paper, implement the corresponding algorithms from scratch, and produce quantitative results matching the original publication. Agents are provided only with the task instruction and paper content, and operate in a sandboxed execution environment. All tasks are contributed by domain experts from over 20 research groups at the School of Physics, Peking University, each grounded in a real published paper and validated through end-to-end reproduction with verified ground-truth results and detailed scoring rubrics. Using an agentified assessment pipeline, we evaluate a set of coding agents on PRBench and analyze their capabilities across key dimensions of scientific reasoning and execution. The best-performing agent, OpenAI Codex powered by GPT-5.3-Codex, achieves a mean overall score of 34%. All agents exhibit a zero end-to-end callback success rate, with particularly poor performance in data accuracy and code correctness. We further identify systematic failure modes, including errors in formula implementation, inability to debug numerical simulations, and fabrication of output data. Overall, PRBench provides a rigorous benchmark for evaluating progress toward autonomous scientific research.