PhysReason: Een Uitgebreide Benchmark voor Fysica-Gebaseerd Redeneren
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning
February 17, 2025
Auteurs: Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu
cs.AI
Samenvatting
Grote taalmodellen tonen opmerkelijke capaciteiten op verschillende domeinen, met name in wiskunde en logisch redeneren. Huidige evaluaties negeren echter fysica-gebaseerd redeneren – een complexe taak die fysica-theorieën en beperkingen vereist. Wij presenteren PhysReason, een benchmark van 1.200 problemen bestaande uit kennisgebaseerde (25%) en redeneergebaseerde (75%) problemen, waarbij de laatste zijn onderverdeeld in drie moeilijkheidsniveaus (makkelijk, gemiddeld, moeilijk). Opvallend is dat problemen gemiddeld 8,1 oplossingsstappen vereisen, waarbij moeilijke problemen 15,6 stappen nodig hebben, wat de complexiteit van fysica-gebaseerd redeneren weerspiegelt. Wij stellen het Physics Solution Auto Scoring Framework voor, dat efficiënte antwoordniveau- en uitgebreide stapniveau-evaluaties omvat. Top presterende modellen zoals Deepseek-R1, Gemini-2.0-Flash-Thinking en o3-mini-high halen minder dan 60% bij antwoordniveau-evaluatie, waarbij de prestaties dalen van kennisvragen (75,11%) naar moeilijke problemen (31,95%). Door stapniveau-evaluatie hebben we vier belangrijke knelpunten geïdentificeerd: Toepassing van Fysica Theorieën, Begrip van Fysica Processen, Berekening en Analyse van Fysica Condities. Deze bevindingen positioneren PhysReason als een nieuw en uitgebreid benchmark voor het evalueren van fysica-gebaseerde redeneercapaciteiten in grote taalmodellen. Onze code en data zullen worden gepubliceerd op https:/dxzxy12138.github.io/PhysReason.
English
Large language models demonstrate remarkable capabilities across various
domains, especially mathematics and logic reasoning. However, current
evaluations overlook physics-based reasoning - a complex task requiring physics
theorems and constraints. We present PhysReason, a 1,200-problem benchmark
comprising knowledge-based (25%) and reasoning-based (75%) problems, where the
latter are divided into three difficulty levels (easy, medium, hard). Notably,
problems require an average of 8.1 solution steps, with hard requiring 15.6,
reflecting the complexity of physics-based reasoning. We propose the Physics
Solution Auto Scoring Framework, incorporating efficient answer-level and
comprehensive step-level evaluations. Top-performing models like Deepseek-R1,
Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on
answer-level evaluation, with performance dropping from knowledge questions
(75.11%) to hard problems (31.95%). Through step-level evaluation, we
identified four key bottlenecks: Physics Theorem Application, Physics Process
Understanding, Calculation, and Physics Condition Analysis. These findings
position PhysReason as a novel and comprehensive benchmark for evaluating
physics-based reasoning capabilities in large language models. Our code and
data will be published at https:/dxzxy12138.github.io/PhysReason.Summary
AI-Generated Summary