ChatPaper.aiChatPaper

CMPhysBench: Бенчмарк для оценки больших языковых моделей в физике конденсированного состояния

CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

August 25, 2025
Авторы: Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng
cs.AI

Аннотация

Мы представляем CMPhysBench — новый бенчмарк, разработанный для оценки компетентности крупных языковых моделей (LLM) в области физики конденсированного состояния. CMPhysBench состоит из более чем 520 тщательно отобранных вопросов уровня аспирантуры, охватывающих как ключевые подразделы, так и фундаментальные теоретические основы физики конденсированного состояния, такие как магнетизм, сверхпроводимость, сильно коррелированные системы и другие. Чтобы обеспечить глубокое понимание процесса решения задач, мы сосредоточились исключительно на расчетных задачах, требующих от LLM самостоятельной генерации полных решений. Одновременно, используя древовидные представления выражений, мы вводим показатель Scalable Expression Edit Distance (SEED), который предоставляет детализированную (не бинарную) частичную оценку и позволяет более точно измерять сходство между предсказанием и эталонным ответом. Наши результаты показывают, что даже лучшие модели, такие как Grok-4, достигают лишь среднего значения SEED в 36 и точности в 28% на CMPhysBench, что подчеркивает значительный разрыв в возможностях, особенно для этой практической и передовой области по сравнению с традиционной физикой. Код и набор данных доступны публично по адресу https://github.com/CMPhysBench/CMPhysBench.
English
We introduce CMPhysBench, designed to assess the proficiency of Large Language Models (LLMs) in Condensed Matter Physics, as a novel Benchmark. CMPhysBench is composed of more than 520 graduate-level meticulously curated questions covering both representative subfields and foundational theoretical frameworks of condensed matter physics, such as magnetism, superconductivity, strongly correlated systems, etc. To ensure a deep understanding of the problem-solving process,we focus exclusively on calculation problems, requiring LLMs to independently generate comprehensive solutions. Meanwhile, leveraging tree-based representations of expressions, we introduce the Scalable Expression Edit Distance (SEED) score, which provides fine-grained (non-binary) partial credit and yields a more accurate assessment of similarity between prediction and ground-truth. Our results show that even the best models, Grok-4, reach only 36 average SEED score and 28% accuracy on CMPhysBench, underscoring a significant capability gap, especially for this practical and frontier domain relative to traditional physics. The code anddataset are publicly available at https://github.com/CMPhysBench/CMPhysBench.
PDF361August 27, 2025