PhysReason: Een Uitgebreide Benchmark voor Fysica-Gebaseerd Redeneren

Samenvatting

Grote taalmodellen tonen opmerkelijke capaciteiten op verschillende domeinen, met name in wiskunde en logisch redeneren. Huidige evaluaties negeren echter fysica-gebaseerd redeneren – een complexe taak die fysica-theorieën en beperkingen vereist. Wij presenteren PhysReason, een benchmark van 1.200 problemen bestaande uit kennisgebaseerde (25%) en redeneergebaseerde (75%) problemen, waarbij de laatste zijn onderverdeeld in drie moeilijkheidsniveaus (makkelijk, gemiddeld, moeilijk). Opvallend is dat problemen gemiddeld 8,1 oplossingsstappen vereisen, waarbij moeilijke problemen 15,6 stappen nodig hebben, wat de complexiteit van fysica-gebaseerd redeneren weerspiegelt. Wij stellen het Physics Solution Auto Scoring Framework voor, dat efficiënte antwoordniveau- en uitgebreide stapniveau-evaluaties omvat. Top presterende modellen zoals Deepseek-R1, Gemini-2.0-Flash-Thinking en o3-mini-high halen minder dan 60% bij antwoordniveau-evaluatie, waarbij de prestaties dalen van kennisvragen (75,11%) naar moeilijke problemen (31,95%). Door stapniveau-evaluatie hebben we vier belangrijke knelpunten geïdentificeerd: Toepassing van Fysica Theorieën, Begrip van Fysica Processen, Berekening en Analyse van Fysica Condities. Deze bevindingen positioneren PhysReason als een nieuw en uitgebreid benchmark voor het evalueren van fysica-gebaseerde redeneercapaciteiten in grote taalmodellen. Onze code en data zullen worden gepubliceerd op https:/dxzxy12138.github.io/PhysReason.

English

Large language models demonstrate remarkable capabilities across various domains, especially mathematics and logic reasoning. However, current evaluations overlook physics-based reasoning - a complex task requiring physics theorems and constraints. We present PhysReason, a 1,200-problem benchmark comprising knowledge-based (25%) and reasoning-based (75%) problems, where the latter are divided into three difficulty levels (easy, medium, hard). Notably, problems require an average of 8.1 solution steps, with hard requiring 15.6, reflecting the complexity of physics-based reasoning. We propose the Physics Solution Auto Scoring Framework, incorporating efficient answer-level and comprehensive step-level evaluations. Top-performing models like Deepseek-R1, Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on answer-level evaluation, with performance dropping from knowledge questions (75.11%) to hard problems (31.95%). Through step-level evaluation, we identified four key bottlenecks: Physics Theorem Application, Physics Process Understanding, Calculation, and Physics Condition Analysis. These findings position PhysReason as a novel and comprehensive benchmark for evaluating physics-based reasoning capabilities in large language models. Our code and data will be published at https:/dxzxy12138.github.io/PhysReason.

PhysReason: Een Uitgebreide Benchmark voor Fysica-Gebaseerd Redeneren

PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

Samenvatting

Support