PHYBench: Evaluación Integral de la Percepción y el Razonamiento Físico en Modelos de Lenguaje de Gran Escala
PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models
April 22, 2025
Autores: Shi Qiu, Shaoyang Guo, Zhuo-Yang Song, Yunbo Sun, Zeyu Cai, Jiashen Wei, Tianyu Luo, Yixuan Yin, Haoxu Zhang, Yi Hu, Chenyang Wang, Chencheng Tang, Haoling Chang, Qi Liu, Ziheng Zhou, Tianyu Zhang, Jingtian Zhang, Zhangyi Liu, Minghao Li, Yuku Zhang, Boxuan Jing, Xianqi Yin, Yutong Ren, Zizhuo Fu, Weike Wang, Xudong Tian, Anqi Lv, Laifu Man, Jianxiang Li, Feiyu Tao, Qihua Sun, Zhou Liang, Yushu Mu, Zhongxuan Li, Jing-Jun Zhang, Shutao Zhang, Xiaotian Li, Xingqi Xia, Jiawei Lin, Zheyu Shen, Jiahang Chen, Qiuhao Xiong, Binran Wang, Fengyuan Wang, Ziyang Ni, Bohan Zhang, Fan Cui, Changkun Shao, Qing-Hong Cao, Ming-xing Luo, Muhan Zhang, Hua Xing Zhu
cs.AI
Resumen
Presentamos PHYBench, un nuevo y de alta calidad punto de referencia diseñado para evaluar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs) en contextos físicos. PHYBench consta de 500 problemas de física meticulosamente seleccionados basados en escenarios físicos del mundo real, diseñados para evaluar la capacidad de los modelos para comprender y razonar sobre procesos físicos realistas. Cubriendo mecánica, electromagnetismo, termodinámica, óptica, física moderna y física avanzada, el punto de referencia abarca niveles de dificultad desde ejercicios de secundaria hasta problemas de pregrado y desafíos de las Olimpiadas de Física. Además, proponemos la Puntuación de Distancia de Edición de Expresiones (EED, por sus siglas en inglés), una nueva métrica de evaluación basada en la distancia de edición entre expresiones matemáticas, que captura efectivamente las diferencias en los procesos de razonamiento y los resultados de los modelos más allá de los métodos tradicionales de puntuación binaria. Evaluamos varios LLMs en PHYBench y comparamos su rendimiento con el de expertos humanos. Nuestros resultados revelan que incluso los modelos de razonamiento más avanzados están significativamente por detrás de los expertos humanos, destacando sus limitaciones y la necesidad de mejora en escenarios de razonamiento físico complejo. Nuestros resultados del punto de referencia y el conjunto de datos están disponibles públicamente en https://phybench-official.github.io/phybench-demo/.
English
We introduce PHYBench, a novel, high-quality benchmark designed for
evaluating reasoning capabilities of large language models (LLMs) in physical
contexts. PHYBench consists of 500 meticulously curated physics problems based
on real-world physical scenarios, designed to assess the ability of models to
understand and reason about realistic physical processes. Covering mechanics,
electromagnetism, thermodynamics, optics, modern physics, and advanced physics,
the benchmark spans difficulty levels from high school exercises to
undergraduate problems and Physics Olympiad challenges. Additionally, we
propose the Expression Edit Distance (EED) Score, a novel evaluation metric
based on the edit distance between mathematical expressions, which effectively
captures differences in model reasoning processes and results beyond
traditional binary scoring methods. We evaluate various LLMs on PHYBench and
compare their performance with human experts. Our results reveal that even
state-of-the-art reasoning models significantly lag behind human experts,
highlighting their limitations and the need for improvement in complex physical
reasoning scenarios. Our benchmark results and dataset are publicly available
at https://phybench-official.github.io/phybench-demo/.Summary
AI-Generated Summary