ChatPaper.aiChatPaper

CMPhysBench: Een benchmark voor het evalueren van grote taalmodellen in de vaste-stoffysica

CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

August 25, 2025
Auteurs: Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng
cs.AI

Samenvatting

We introduceren CMPhysBench, ontworpen om de vaardigheid van Large Language Models (LLMs) in Vaste Stof Fysica te beoordelen, als een nieuwe benchmark. CMPhysBench bestaat uit meer dan 520 zorgvuldig samengestelde vragen op masterniveau, die zowel representatieve subvelden als fundamentele theoretische kaders van vaste stof fysica beslaan, zoals magnetisme, supergeleiding, sterk gecorreleerde systemen, enz. Om een diepgaand begrip van het probleemoplossingsproces te waarborgen, richten we ons uitsluitend op berekeningsproblemen, waarbij LLMs onafhankelijk uitgebreide oplossingen moeten genereren. Tegelijkertijd introduceren we, door gebruik te maken van boomgebaseerde representaties van uitdrukkingen, de Scalable Expression Edit Distance (SEED) score, die fijnmazige (niet-binaire) gedeeltelijke credits biedt en een nauwkeurigere beoordeling van de gelijkenis tussen voorspelling en grondwaarde mogelijk maakt. Onze resultaten tonen aan dat zelfs de beste modellen, zoals Grok-4, slechts een gemiddelde SEED score van 36 en een nauwkeurigheid van 28% behalen op CMPhysBench, wat een aanzienlijk capaciteitsgat onderstreept, vooral voor dit praktische en grensverleggende domein in vergelijking met traditionele fysica. De code en dataset zijn publiekelijk beschikbaar op https://github.com/CMPhysBench/CMPhysBench.
English
We introduce CMPhysBench, designed to assess the proficiency of Large Language Models (LLMs) in Condensed Matter Physics, as a novel Benchmark. CMPhysBench is composed of more than 520 graduate-level meticulously curated questions covering both representative subfields and foundational theoretical frameworks of condensed matter physics, such as magnetism, superconductivity, strongly correlated systems, etc. To ensure a deep understanding of the problem-solving process,we focus exclusively on calculation problems, requiring LLMs to independently generate comprehensive solutions. Meanwhile, leveraging tree-based representations of expressions, we introduce the Scalable Expression Edit Distance (SEED) score, which provides fine-grained (non-binary) partial credit and yields a more accurate assessment of similarity between prediction and ground-truth. Our results show that even the best models, Grok-4, reach only 36 average SEED score and 28% accuracy on CMPhysBench, underscoring a significant capability gap, especially for this practical and frontier domain relative to traditional physics. The code anddataset are publicly available at https://github.com/CMPhysBench/CMPhysBench.
PDF482August 27, 2025