PhysReason: Un Benchmark Completo per il Ragionamento Basato sulla Fisica
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning
February 17, 2025
Autori: Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu
cs.AI
Abstract
I grandi modelli linguistici dimostrano capacità notevoli in vari domini, in particolare nella matematica e nel ragionamento logico. Tuttavia, le valutazioni attuali trascurano il ragionamento basato sulla fisica, un compito complesso che richiede teoremi e vincoli fisici. Presentiamo PhysReason, un benchmark di 1.200 problemi composto da problemi basati sulla conoscenza (25%) e sul ragionamento (75%), dove quest'ultimi sono suddivisi in tre livelli di difficoltà (facile, medio, difficile). È importante notare che i problemi richiedono in media 8,1 passaggi di soluzione, con i problemi difficili che ne richiedono 15,6, riflettendo la complessità del ragionamento basato sulla fisica. Proponiamo il Physics Solution Auto Scoring Framework, che incorpora valutazioni efficienti a livello di risposta e valutazioni complete a livello di passaggio. I modelli con le migliori prestazioni, come Deepseek-R1, Gemini-2.0-Flash-Thinking e o3-mini-high, ottengono meno del 60% nella valutazione a livello di risposta, con prestazioni che diminuiscono dalle domande di conoscenza (75,11%) ai problemi difficili (31,95%). Attraverso la valutazione a livello di passaggio, abbiamo identificato quattro colli di bottiglia chiave: Applicazione dei Teoremi Fisici, Comprensione dei Processi Fisici, Calcolo e Analisi delle Condizioni Fisiche. Questi risultati posizionano PhysReason come un benchmark nuovo e completo per valutare le capacità di ragionamento basato sulla fisica nei grandi modelli linguistici. Il nostro codice e i dati saranno pubblicati su https:/dxzxy12138.github.io/PhysReason.
English
Large language models demonstrate remarkable capabilities across various
domains, especially mathematics and logic reasoning. However, current
evaluations overlook physics-based reasoning - a complex task requiring physics
theorems and constraints. We present PhysReason, a 1,200-problem benchmark
comprising knowledge-based (25%) and reasoning-based (75%) problems, where the
latter are divided into three difficulty levels (easy, medium, hard). Notably,
problems require an average of 8.1 solution steps, with hard requiring 15.6,
reflecting the complexity of physics-based reasoning. We propose the Physics
Solution Auto Scoring Framework, incorporating efficient answer-level and
comprehensive step-level evaluations. Top-performing models like Deepseek-R1,
Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on
answer-level evaluation, with performance dropping from knowledge questions
(75.11%) to hard problems (31.95%). Through step-level evaluation, we
identified four key bottlenecks: Physics Theorem Application, Physics Process
Understanding, Calculation, and Physics Condition Analysis. These findings
position PhysReason as a novel and comprehensive benchmark for evaluating
physics-based reasoning capabilities in large language models. Our code and
data will be published at https:/dxzxy12138.github.io/PhysReason.Summary
AI-Generated Summary