CMPhysBench : Un benchmark pour évaluer les modèles de langage de grande taille en physique de la matière condensée
CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics
August 25, 2025
papers.authors: Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng
cs.AI
papers.abstract
Nous présentons CMPhysBench, conçu pour évaluer la maîtrise des modèles de langage de grande taille (LLMs) en physique de la matière condensée, en tant que nouveau benchmark. CMPhysBench est composé de plus de 520 questions soigneusement sélectionnées au niveau des études supérieures, couvrant à la fois des sous-domaines représentatifs et des cadres théoriques fondamentaux de la physique de la matière condensée, tels que le magnétisme, la supraconductivité, les systèmes fortement corrélés, etc. Pour garantir une compréhension approfondie du processus de résolution de problèmes, nous nous concentrons exclusivement sur des problèmes de calcul, exigeant que les LLMs génèrent de manière indépendante des solutions complètes. Parallèlement, en exploitant des représentations arborescentes des expressions, nous introduisons le score SEED (Scalable Expression Edit Distance), qui fournit un crédit partiel fin (non binaire) et permet une évaluation plus précise de la similarité entre la prédiction et la vérité de référence. Nos résultats montrent que même les meilleurs modèles, comme Grok-4, n'atteignent qu'un score SEED moyen de 36 et une précision de 28 % sur CMPhysBench, soulignant un écart de capacité significatif, en particulier pour ce domaine pratique et de pointe par rapport à la physique traditionnelle. Le code et le jeu de données sont disponibles publiquement à l'adresse https://github.com/CMPhysBench/CMPhysBench.
English
We introduce CMPhysBench, designed to assess the proficiency of Large
Language Models (LLMs) in Condensed Matter Physics, as a novel Benchmark.
CMPhysBench is composed of more than 520 graduate-level meticulously curated
questions covering both representative subfields and foundational theoretical
frameworks of condensed matter physics, such as magnetism, superconductivity,
strongly correlated systems, etc. To ensure a deep understanding of the
problem-solving process,we focus exclusively on calculation problems, requiring
LLMs to independently generate comprehensive solutions. Meanwhile, leveraging
tree-based representations of expressions, we introduce the Scalable Expression
Edit Distance (SEED) score, which provides fine-grained (non-binary) partial
credit and yields a more accurate assessment of similarity between prediction
and ground-truth. Our results show that even the best models, Grok-4, reach
only 36 average SEED score and 28% accuracy on CMPhysBench, underscoring a
significant capability gap, especially for this practical and frontier domain
relative to traditional physics. The code anddataset are publicly available at
https://github.com/CMPhysBench/CMPhysBench.