PHYBench: Valutazione Olistica della Percezione Fisica e del Ragionamento nei Modelli Linguistici di Grande Dimensione
PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models
April 22, 2025
Autori: Shi Qiu, Shaoyang Guo, Zhuo-Yang Song, Yunbo Sun, Zeyu Cai, Jiashen Wei, Tianyu Luo, Yixuan Yin, Haoxu Zhang, Yi Hu, Chenyang Wang, Chencheng Tang, Haoling Chang, Qi Liu, Ziheng Zhou, Tianyu Zhang, Jingtian Zhang, Zhangyi Liu, Minghao Li, Yuku Zhang, Boxuan Jing, Xianqi Yin, Yutong Ren, Zizhuo Fu, Weike Wang, Xudong Tian, Anqi Lv, Laifu Man, Jianxiang Li, Feiyu Tao, Qihua Sun, Zhou Liang, Yushu Mu, Zhongxuan Li, Jing-Jun Zhang, Shutao Zhang, Xiaotian Li, Xingqi Xia, Jiawei Lin, Zheyu Shen, Jiahang Chen, Qiuhao Xiong, Binran Wang, Fengyuan Wang, Ziyang Ni, Bohan Zhang, Fan Cui, Changkun Shao, Qing-Hong Cao, Ming-xing Luo, Muhan Zhang, Hua Xing Zhu
cs.AI
Abstract
Presentiamo PHYBench, un nuovo benchmark di alta qualità progettato per valutare le capacità di ragionamento dei grandi modelli linguistici (LLM) in contesti fisici. PHYBench è composto da 500 problemi di fisica accuratamente selezionati, basati su scenari fisici del mondo reale, concepiti per valutare la capacità dei modelli di comprendere e ragionare su processi fisici realistici. Coprendo meccanica, elettromagnetismo, termodinamica, ottica, fisica moderna e fisica avanzata, il benchmark spazia da esercizi di livello scolastico superiore a problemi universitari e sfide delle Olimpiadi della Fisica. Inoltre, proponiamo l'Expression Edit Distance (EED) Score, una nuova metrica di valutazione basata sulla distanza di modifica tra espressioni matematiche, che cattura efficacemente le differenze nei processi e nei risultati del ragionamento dei modelli, andando oltre i tradizionali metodi di valutazione binaria. Abbiamo valutato vari LLM su PHYBench e confrontato le loro prestazioni con quelle di esperti umani. I nostri risultati rivelano che anche i modelli di ragionamento più avanzati rimangono significativamente indietro rispetto agli esperti umani, evidenziando i loro limiti e la necessità di miglioramenti negli scenari di ragionamento fisico complesso. I risultati del nostro benchmark e il dataset sono pubblicamente disponibili all'indirizzo https://phybench-official.github.io/phybench-demo/.
English
We introduce PHYBench, a novel, high-quality benchmark designed for
evaluating reasoning capabilities of large language models (LLMs) in physical
contexts. PHYBench consists of 500 meticulously curated physics problems based
on real-world physical scenarios, designed to assess the ability of models to
understand and reason about realistic physical processes. Covering mechanics,
electromagnetism, thermodynamics, optics, modern physics, and advanced physics,
the benchmark spans difficulty levels from high school exercises to
undergraduate problems and Physics Olympiad challenges. Additionally, we
propose the Expression Edit Distance (EED) Score, a novel evaluation metric
based on the edit distance between mathematical expressions, which effectively
captures differences in model reasoning processes and results beyond
traditional binary scoring methods. We evaluate various LLMs on PHYBench and
compare their performance with human experts. Our results reveal that even
state-of-the-art reasoning models significantly lag behind human experts,
highlighting their limitations and the need for improvement in complex physical
reasoning scenarios. Our benchmark results and dataset are publicly available
at https://phybench-official.github.io/phybench-demo/.Summary
AI-Generated Summary