PhysReason : Un référentiel exhaustif pour le raisonnement basé sur la physique
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning
February 17, 2025
Auteurs: Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu
cs.AI
Résumé
Les grands modèles de langage démontrent des capacités remarquables dans divers domaines, en particulier en mathématiques et en raisonnement logique. Cependant, les évaluations actuelles négligent le raisonnement basé sur la physique - une tâche complexe nécessitant des théorèmes et des contraintes physiques. Nous présentons PhysReason, un banc d'essai de 1 200 problèmes comprenant des problèmes basés sur les connaissances (25 %) et des problèmes basés sur le raisonnement (75 %), ces derniers étant divisés en trois niveaux de difficulté (facile, moyen, difficile). Notamment, les problèmes nécessitent en moyenne 8,1 étapes de solution, les problèmes difficiles nécessitant 15,6 étapes, ce qui reflète la complexité du raisonnement basé sur la physique. Nous proposons le Cadre d'Évaluation Automatique des Solutions en Physique, intégrant des évaluations efficaces au niveau des réponses et des étapes de manière exhaustive. Les modèles performants tels que Deepseek-R1, Gemini-2.0-Flash-Thinking et o3-mini-high obtiennent moins de 60 % en évaluation au niveau des réponses, la performance chutant des questions de connaissances (75,11 %) aux problèmes difficiles (31,95 %). Grâce à l'évaluation au niveau des étapes, nous avons identifié quatre principaux goulets d'étranglement : Application des Théorèmes de Physique, Compréhension des Processus Physiques, Calcul et Analyse des Conditions Physiques. Ces résultats placent PhysReason comme un banc d'essai novateur et complet pour évaluer les capacités de raisonnement basé sur la physique dans les grands modèles de langage. Notre code et nos données seront publiés sur https:/dxzxy12138.github.io/PhysReason.
English
Large language models demonstrate remarkable capabilities across various
domains, especially mathematics and logic reasoning. However, current
evaluations overlook physics-based reasoning - a complex task requiring physics
theorems and constraints. We present PhysReason, a 1,200-problem benchmark
comprising knowledge-based (25%) and reasoning-based (75%) problems, where the
latter are divided into three difficulty levels (easy, medium, hard). Notably,
problems require an average of 8.1 solution steps, with hard requiring 15.6,
reflecting the complexity of physics-based reasoning. We propose the Physics
Solution Auto Scoring Framework, incorporating efficient answer-level and
comprehensive step-level evaluations. Top-performing models like Deepseek-R1,
Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on
answer-level evaluation, with performance dropping from knowledge questions
(75.11%) to hard problems (31.95%). Through step-level evaluation, we
identified four key bottlenecks: Physics Theorem Application, Physics Process
Understanding, Calculation, and Physics Condition Analysis. These findings
position PhysReason as a novel and comprehensive benchmark for evaluating
physics-based reasoning capabilities in large language models. Our code and
data will be published at https:/dxzxy12138.github.io/PhysReason.Summary
AI-Generated Summary