PhysReason: 物理ベース推論のための包括的ベンチマーク
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning
February 17, 2025
著者: Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu
cs.AI
要旨
大規模言語モデルは、特に数学や論理推論の分野で顕著な能力を発揮しています。しかし、現在の評価では物理ベースの推論が見過ごされており、これは物理法則や制約を必要とする複雑なタスクです。本研究では、PhysReasonという1,200問からなるベンチマークを提案します。このベンチマークは知識ベースの問題(25%)と推論ベースの問題(75%)で構成され、後者はさらに3つの難易度(易しい、中程度、難しい)に分類されます。特に、問題を解くには平均8.1ステップが必要で、難しい問題では15.6ステップを要し、物理ベースの推論の複雑さを反映しています。さらに、Physics Solution Auto Scoring Frameworkを提案し、効率的な回答レベル評価と包括的なステップレベル評価を組み込んでいます。Deepseek-R1、Gemini-2.0-Flash-Thinking、o3-mini-highといったトップパフォーマンスのモデルでも、回答レベル評価では60%未満のスコアであり、知識問題(75.11%)から難しい問題(31.95%)にかけて性能が低下しています。ステップレベル評価を通じて、物理法則の適用、物理プロセスの理解、計算、物理条件の分析という4つの主要なボトルネックを特定しました。これらの知見により、PhysReasonは大規模言語モデルの物理ベース推論能力を評価するための新規かつ包括的なベンチマークとして位置付けられます。コードとデータはhttps:/dxzxy12138.github.io/PhysReasonで公開予定です。
English
Large language models demonstrate remarkable capabilities across various
domains, especially mathematics and logic reasoning. However, current
evaluations overlook physics-based reasoning - a complex task requiring physics
theorems and constraints. We present PhysReason, a 1,200-problem benchmark
comprising knowledge-based (25%) and reasoning-based (75%) problems, where the
latter are divided into three difficulty levels (easy, medium, hard). Notably,
problems require an average of 8.1 solution steps, with hard requiring 15.6,
reflecting the complexity of physics-based reasoning. We propose the Physics
Solution Auto Scoring Framework, incorporating efficient answer-level and
comprehensive step-level evaluations. Top-performing models like Deepseek-R1,
Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on
answer-level evaluation, with performance dropping from knowledge questions
(75.11%) to hard problems (31.95%). Through step-level evaluation, we
identified four key bottlenecks: Physics Theorem Application, Physics Process
Understanding, Calculation, and Physics Condition Analysis. These findings
position PhysReason as a novel and comprehensive benchmark for evaluating
physics-based reasoning capabilities in large language models. Our code and
data will be published at https:/dxzxy12138.github.io/PhysReason.Summary
AI-Generated Summary