ChatPaper.aiChatPaper

NatureBench: Kunnen code-agenten de gepubliceerde SOTA van Nature-familie papers evenaren?

NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

June 23, 2026
Auteurs: Yuru Wang, Lejun Cheng, Yuxin Zuo, Sihang Zeng, Bingxiang He, Che Jiang, Junlin Yang, Yuchong Wang, Kaikai Zhao, Weifeng Huang, Kai Tian, Zhenzhao Yuan, Jincheng Zhong, Weizhi Wang, Ning Ding, Bowen Zhou, Kaiyan Zhang
cs.AI

Samenvatting

Wij introduceren NatureBench, een cross-disciplinaire benchmark van 90 taken die zijn gedistilleerd uit peer-reviewed publicaties in de Nature-familie. Deze benchmark is ontworpen om te evalueren of AI-coderingsagenten verder kunnen gaan dan reproductie en daadwerkelijke ontdekkingen kunnen doen op echte wetenschappelijke problemen. NatureBench is gebouwd op NatureGym, een geautomatiseerde pipeline die een gestandaardiseerde, per-taak gecontaineriseerde omgeving construeert op basis van een bronartikel, waarmee het omgevingsfragmentatieprobleem wordt aangepakt dat de geloofwaardigheid van eerdere agent-gedreven onderzoeksbenchmarks heeft beperkt. Bij het evalueren van tien geavanceerde agentconfiguraties onder een strikt protocol zonder webzoekopdrachten, constateren we dat het sterkste model slechts 17,8% van de taken overtreft ten opzichte van de state-of-the-art onder het g>0.1-criterium. Analyse van methodepaden onthult dat agenten voornamelijk succes boeken via methodologische vertaling, waarbij wetenschappelijke taken worden omgezet in vertrouwde gesuperviseerde voorspellingsproblemen, in plaats van via echte wetenschappelijke inventiviteit. Mislukkingen worden gedomineerd door een verkeerde methodekeuze en onvoldoende rekenbudget, niet door misinterpretatie van de taak. Wij publiceren de benchmark, de NatureGym-pipeline en een openbaar leaderboard met reproductie aan onderhoudszijde. Code: https://github.com/FrontisAI/NatureBench
English
We introduce NatureBench, a cross-discipline benchmark of 90 tasks distilled from peer-reviewed Nature-family publications, designed to evaluate whether AI coding agents can move beyond reproduction toward discovery on real scientific problems. NatureBench is built on NatureGym, an automated pipeline that constructs a standardized, per-task containerized environment from a source paper, addressing the environment-fragmentation problem that has limited the credibility of prior agent-on-research benchmarks. Evaluating ten frontier agent configurations under a strict web-search-disabled protocol, we find that the strongest model surpasses SOTA on only 17.8% of tasks under the g>0.1 criterion. Analysis of method pathways reveals that agents succeed primarily through methodological translation, converting scientific tasks into familiar supervised prediction problems, rather than through genuine scientific invention. Failures are dominated by wrong method choice and insufficient compute budget, not by task misunderstanding. We release the benchmark, the NatureGym pipeline, and a public leaderboard with maintainer-side reproduction. Code: https://github.com/FrontisAI/NatureBench