ChatPaper.aiChatPaper

PHYBench: Комплексная оценка физического восприятия и логического мышления в крупных языковых моделях

PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models

April 22, 2025
Авторы: Shi Qiu, Shaoyang Guo, Zhuo-Yang Song, Yunbo Sun, Zeyu Cai, Jiashen Wei, Tianyu Luo, Yixuan Yin, Haoxu Zhang, Yi Hu, Chenyang Wang, Chencheng Tang, Haoling Chang, Qi Liu, Ziheng Zhou, Tianyu Zhang, Jingtian Zhang, Zhangyi Liu, Minghao Li, Yuku Zhang, Boxuan Jing, Xianqi Yin, Yutong Ren, Zizhuo Fu, Weike Wang, Xudong Tian, Anqi Lv, Laifu Man, Jianxiang Li, Feiyu Tao, Qihua Sun, Zhou Liang, Yushu Mu, Zhongxuan Li, Jing-Jun Zhang, Shutao Zhang, Xiaotian Li, Xingqi Xia, Jiawei Lin, Zheyu Shen, Jiahang Chen, Qiuhao Xiong, Binran Wang, Fengyuan Wang, Ziyang Ni, Bohan Zhang, Fan Cui, Changkun Shao, Qing-Hong Cao, Ming-xing Luo, Muhan Zhang, Hua Xing Zhu
cs.AI

Аннотация

Мы представляем PHYBench — новый высококачественный бенчмарк, разработанный для оценки способностей больших языковых моделей (LLM) к рассуждению в физических контекстах. PHYBench состоит из 500 тщательно отобранных физических задач, основанных на реальных физических сценариях, которые предназначены для оценки способности моделей понимать и рассуждать о реалистичных физических процессах. Охватывая механику, электромагнетизм, термодинамику, оптику, современную физику и продвинутые разделы физики, бенчмарк включает задачи различного уровня сложности — от школьных упражнений до университетских задач и вызовов Физической олимпиады. Кроме того, мы предлагаем новую метрику оценки — Expression Edit Distance (EED) Score, основанную на расстоянии редактирования между математическими выражениями, которая эффективно фиксирует различия в процессах и результатах рассуждений моделей, выходя за рамки традиционных бинарных методов оценки. Мы тестируем различные LLM на PHYBench и сравниваем их результаты с показателями экспертов-людей. Наши результаты показывают, что даже самые передовые модели рассуждений значительно отстают от экспертов, что подчеркивает их ограничения и необходимость улучшения в сложных сценариях физического рассуждения. Наши результаты бенчмарка и набор данных доступны публично по адресу https://phybench-official.github.io/phybench-demo/.
English
We introduce PHYBench, a novel, high-quality benchmark designed for evaluating reasoning capabilities of large language models (LLMs) in physical contexts. PHYBench consists of 500 meticulously curated physics problems based on real-world physical scenarios, designed to assess the ability of models to understand and reason about realistic physical processes. Covering mechanics, electromagnetism, thermodynamics, optics, modern physics, and advanced physics, the benchmark spans difficulty levels from high school exercises to undergraduate problems and Physics Olympiad challenges. Additionally, we propose the Expression Edit Distance (EED) Score, a novel evaluation metric based on the edit distance between mathematical expressions, which effectively captures differences in model reasoning processes and results beyond traditional binary scoring methods. We evaluate various LLMs on PHYBench and compare their performance with human experts. Our results reveal that even state-of-the-art reasoning models significantly lag behind human experts, highlighting their limitations and the need for improvement in complex physical reasoning scenarios. Our benchmark results and dataset are publicly available at https://phybench-official.github.io/phybench-demo/.

Summary

AI-Generated Summary

PDF332April 24, 2025