CMPhysBench: Um Benchmark para Avaliação de Modelos de Linguagem de Grande Escala em Física da Matéria Condensada
CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics
August 25, 2025
Autores: Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng
cs.AI
Resumo
Apresentamos o CMPhysBench, projetado para avaliar a proficiência de Modelos de Linguagem de Grande Escala (LLMs) em Física da Matéria Condensada, como um novo benchmark. O CMPhysBench é composto por mais de 520 questões meticulosamente curadas em nível de pós-graduação, abrangendo tanto subáreas representativas quanto estruturas teóricas fundamentais da física da matéria condensada, como magnetismo, supercondutividade, sistemas fortemente correlacionados, entre outros. Para garantir um entendimento profundo do processo de resolução de problemas, focamos exclusivamente em problemas de cálculo, exigindo que os LLMs gerem soluções completas de forma independente. Paralelamente, utilizando representações baseadas em árvore de expressões, introduzimos a pontuação de Distância de Edição de Expressão Escalável (SEED), que fornece crédito parcial refinado (não binário) e resulta em uma avaliação mais precisa da similaridade entre a previsão e a verdade fundamental. Nossos resultados mostram que mesmo os melhores modelos, como o Grok-4, atingem apenas uma pontuação SEED média de 36 e 28% de precisão no CMPhysBench, destacando uma lacuna significativa de capacidade, especialmente para este domínio prático e de fronteira em relação à física tradicional. O código e o conjunto de dados estão disponíveis publicamente em https://github.com/CMPhysBench/CMPhysBench.
English
We introduce CMPhysBench, designed to assess the proficiency of Large
Language Models (LLMs) in Condensed Matter Physics, as a novel Benchmark.
CMPhysBench is composed of more than 520 graduate-level meticulously curated
questions covering both representative subfields and foundational theoretical
frameworks of condensed matter physics, such as magnetism, superconductivity,
strongly correlated systems, etc. To ensure a deep understanding of the
problem-solving process,we focus exclusively on calculation problems, requiring
LLMs to independently generate comprehensive solutions. Meanwhile, leveraging
tree-based representations of expressions, we introduce the Scalable Expression
Edit Distance (SEED) score, which provides fine-grained (non-binary) partial
credit and yields a more accurate assessment of similarity between prediction
and ground-truth. Our results show that even the best models, Grok-4, reach
only 36 average SEED score and 28% accuracy on CMPhysBench, underscoring a
significant capability gap, especially for this practical and frontier domain
relative to traditional physics. The code anddataset are publicly available at
https://github.com/CMPhysBench/CMPhysBench.