ChatPaper.aiChatPaper

CMPhysBench: Un Benchmark per Valutare i Modelli Linguistici di Grande Scala nella Fisica della Materia Condensata

CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

August 25, 2025
Autori: Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng
cs.AI

Abstract

Introduciamo CMPhysBench, progettato per valutare la competenza dei Modelli Linguistici di Grande Dimensione (LLMs) nella Fisica della Materia Condensata, come un nuovo benchmark. CMPhysBench è composto da oltre 520 domande accuratamente curate a livello di laurea magistrale, che coprono sia sottocampi rappresentativi che framework teorici fondamentali della fisica della materia condensata, come il magnetismo, la superconduttività, i sistemi fortemente correlati, ecc. Per garantire una profonda comprensione del processo di risoluzione dei problemi, ci concentriamo esclusivamente su problemi di calcolo, richiedendo ai LLMs di generare autonomamente soluzioni complete. Nel frattempo, sfruttando rappresentazioni ad albero delle espressioni, introduciamo il punteggio Scalable Expression Edit Distance (SEED), che fornisce un credito parziale granulare (non binario) e produce una valutazione più accurata della somiglianza tra previsione e verità di riferimento. I nostri risultati mostrano che anche i migliori modelli, come Grok-4, raggiungono solo un punteggio SEED medio di 36 e una precisione del 28% su CMPhysBench, evidenziando un significativo divario di capacità, specialmente per questo dominio pratico e di frontiera rispetto alla fisica tradizionale. Il codice e il dataset sono pubblicamente disponibili all'indirizzo https://github.com/CMPhysBench/CMPhysBench.
English
We introduce CMPhysBench, designed to assess the proficiency of Large Language Models (LLMs) in Condensed Matter Physics, as a novel Benchmark. CMPhysBench is composed of more than 520 graduate-level meticulously curated questions covering both representative subfields and foundational theoretical frameworks of condensed matter physics, such as magnetism, superconductivity, strongly correlated systems, etc. To ensure a deep understanding of the problem-solving process,we focus exclusively on calculation problems, requiring LLMs to independently generate comprehensive solutions. Meanwhile, leveraging tree-based representations of expressions, we introduce the Scalable Expression Edit Distance (SEED) score, which provides fine-grained (non-binary) partial credit and yields a more accurate assessment of similarity between prediction and ground-truth. Our results show that even the best models, Grok-4, reach only 36 average SEED score and 28% accuracy on CMPhysBench, underscoring a significant capability gap, especially for this practical and frontier domain relative to traditional physics. The code anddataset are publicly available at https://github.com/CMPhysBench/CMPhysBench.
PDF482August 27, 2025