PHYBench: 대규모 언어 모델의 물리적 인식 및 추론 능력에 대한 종합적 평가
PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models
April 22, 2025
저자: Shi Qiu, Shaoyang Guo, Zhuo-Yang Song, Yunbo Sun, Zeyu Cai, Jiashen Wei, Tianyu Luo, Yixuan Yin, Haoxu Zhang, Yi Hu, Chenyang Wang, Chencheng Tang, Haoling Chang, Qi Liu, Ziheng Zhou, Tianyu Zhang, Jingtian Zhang, Zhangyi Liu, Minghao Li, Yuku Zhang, Boxuan Jing, Xianqi Yin, Yutong Ren, Zizhuo Fu, Weike Wang, Xudong Tian, Anqi Lv, Laifu Man, Jianxiang Li, Feiyu Tao, Qihua Sun, Zhou Liang, Yushu Mu, Zhongxuan Li, Jing-Jun Zhang, Shutao Zhang, Xiaotian Li, Xingqi Xia, Jiawei Lin, Zheyu Shen, Jiahang Chen, Qiuhao Xiong, Binran Wang, Fengyuan Wang, Ziyang Ni, Bohan Zhang, Fan Cui, Changkun Shao, Qing-Hong Cao, Ming-xing Luo, Muhan Zhang, Hua Xing Zhu
cs.AI
초록
우리는 물리적 맥락에서 대규모 언어 모델(LLM)의 추론 능력을 평가하기 위해 설계된 새로운 고품질 벤치마크인 PHYBench를 소개합니다. PHYBench은 현실 세계의 물리적 시나리오를 기반으로 500개의 세심하게 선별된 물리학 문제로 구성되어 있으며, 모델이 현실적인 물리적 과정을 이해하고 추론하는 능력을 평가하도록 설계되었습니다. 이 벤치마크는 역학, 전자기학, 열역학, 광학, 현대 물리학 및 고급 물리학을 아우르며, 고등학교 수준의 연습문제부터 대학 수준의 문제 및 물리 올림피아드 도전 과제까지 다양한 난이도를 포함합니다. 또한, 우리는 수학적 표현 간의 편집 거리를 기반으로 한 새로운 평가 지표인 Expression Edit Distance (EED) 점수를 제안합니다. 이 지표는 기존의 이진 점수 방식보다 모델의 추론 과정과 결과 간의 차이를 효과적으로 포착합니다. 우리는 다양한 LLM을 PHYBench에서 평가하고 그 성능을 인간 전문가와 비교합니다. 우리의 결과는 최첨단 추론 모델조차도 인간 전문가에 비해 상당히 뒤처져 있음을 보여주며, 복잡한 물리적 추론 시나리오에서의 한계와 개선의 필요성을 강조합니다. 우리의 벤치마크 결과와 데이터셋은 https://phybench-official.github.io/phybench-demo/에서 공개적으로 제공됩니다.
English
We introduce PHYBench, a novel, high-quality benchmark designed for
evaluating reasoning capabilities of large language models (LLMs) in physical
contexts. PHYBench consists of 500 meticulously curated physics problems based
on real-world physical scenarios, designed to assess the ability of models to
understand and reason about realistic physical processes. Covering mechanics,
electromagnetism, thermodynamics, optics, modern physics, and advanced physics,
the benchmark spans difficulty levels from high school exercises to
undergraduate problems and Physics Olympiad challenges. Additionally, we
propose the Expression Edit Distance (EED) Score, a novel evaluation metric
based on the edit distance between mathematical expressions, which effectively
captures differences in model reasoning processes and results beyond
traditional binary scoring methods. We evaluate various LLMs on PHYBench and
compare their performance with human experts. Our results reveal that even
state-of-the-art reasoning models significantly lag behind human experts,
highlighting their limitations and the need for improvement in complex physical
reasoning scenarios. Our benchmark results and dataset are publicly available
at https://phybench-official.github.io/phybench-demo/.Summary
AI-Generated Summary