CMPhysBench: Un punto de referencia para evaluar modelos de lenguaje extenso en física de la materia condensada
CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics
August 25, 2025
Autores: Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng
cs.AI
Resumen
Presentamos CMPhysBench, diseñado para evaluar la competencia de los Modelos de Lenguaje de Gran Escala (LLMs) en Física de la Materia Condensada, como un nuevo punto de referencia. CMPhysBench está compuesto por más de 520 preguntas meticulosamente curadas a nivel de posgrado, que cubren tanto subcampos representativos como marcos teóricos fundamentales de la física de la materia condensada, como el magnetismo, la superconductividad, los sistemas fuertemente correlacionados, entre otros. Para garantizar una comprensión profunda del proceso de resolución de problemas, nos enfocamos exclusivamente en problemas de cálculo, requiriendo que los LLMs generen soluciones completas de manera independiente. Al mismo tiempo, aprovechando las representaciones basadas en árboles de expresiones, introducimos la puntuación de Distancia de Edición de Expresiones Escalable (SEED, por sus siglas en inglés), que proporciona un crédito parcial detallado (no binario) y ofrece una evaluación más precisa de la similitud entre la predicción y la verdad de referencia. Nuestros resultados muestran que incluso los mejores modelos, como Grok-4, alcanzan solo un promedio de 36 en la puntuación SEED y un 28% de precisión en CMPhysBench, lo que subraya una brecha significativa en las capacidades, especialmente para este dominio práctico y de vanguardia en comparación con la física tradicional. El código y el conjunto de datos están disponibles públicamente en https://github.com/CMPhysBench/CMPhysBench.
English
We introduce CMPhysBench, designed to assess the proficiency of Large
Language Models (LLMs) in Condensed Matter Physics, as a novel Benchmark.
CMPhysBench is composed of more than 520 graduate-level meticulously curated
questions covering both representative subfields and foundational theoretical
frameworks of condensed matter physics, such as magnetism, superconductivity,
strongly correlated systems, etc. To ensure a deep understanding of the
problem-solving process,we focus exclusively on calculation problems, requiring
LLMs to independently generate comprehensive solutions. Meanwhile, leveraging
tree-based representations of expressions, we introduce the Scalable Expression
Edit Distance (SEED) score, which provides fine-grained (non-binary) partial
credit and yields a more accurate assessment of similarity between prediction
and ground-truth. Our results show that even the best models, Grok-4, reach
only 36 average SEED score and 28% accuracy on CMPhysBench, underscoring a
significant capability gap, especially for this practical and frontier domain
relative to traditional physics. The code anddataset are publicly available at
https://github.com/CMPhysBench/CMPhysBench.