PhysReason : Un référentiel exhaustif pour le raisonnement basé sur la physique

papers.abstract

Les grands modèles de langage démontrent des capacités remarquables dans divers domaines, en particulier en mathématiques et en raisonnement logique. Cependant, les évaluations actuelles négligent le raisonnement basé sur la physique - une tâche complexe nécessitant des théorèmes et des contraintes physiques. Nous présentons PhysReason, un banc d'essai de 1 200 problèmes comprenant des problèmes basés sur les connaissances (25 %) et des problèmes basés sur le raisonnement (75 %), ces derniers étant divisés en trois niveaux de difficulté (facile, moyen, difficile). Notamment, les problèmes nécessitent en moyenne 8,1 étapes de solution, les problèmes difficiles nécessitant 15,6 étapes, ce qui reflète la complexité du raisonnement basé sur la physique. Nous proposons le Cadre d'Évaluation Automatique des Solutions en Physique, intégrant des évaluations efficaces au niveau des réponses et des étapes de manière exhaustive. Les modèles performants tels que Deepseek-R1, Gemini-2.0-Flash-Thinking et o3-mini-high obtiennent moins de 60 % en évaluation au niveau des réponses, la performance chutant des questions de connaissances (75,11 %) aux problèmes difficiles (31,95 %). Grâce à l'évaluation au niveau des étapes, nous avons identifié quatre principaux goulets d'étranglement : Application des Théorèmes de Physique, Compréhension des Processus Physiques, Calcul et Analyse des Conditions Physiques. Ces résultats placent PhysReason comme un banc d'essai novateur et complet pour évaluer les capacités de raisonnement basé sur la physique dans les grands modèles de langage. Notre code et nos données seront publiés sur https:/dxzxy12138.github.io/PhysReason.

English

Large language models demonstrate remarkable capabilities across various domains, especially mathematics and logic reasoning. However, current evaluations overlook physics-based reasoning - a complex task requiring physics theorems and constraints. We present PhysReason, a 1,200-problem benchmark comprising knowledge-based (25%) and reasoning-based (75%) problems, where the latter are divided into three difficulty levels (easy, medium, hard). Notably, problems require an average of 8.1 solution steps, with hard requiring 15.6, reflecting the complexity of physics-based reasoning. We propose the Physics Solution Auto Scoring Framework, incorporating efficient answer-level and comprehensive step-level evaluations. Top-performing models like Deepseek-R1, Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on answer-level evaluation, with performance dropping from knowledge questions (75.11%) to hard problems (31.95%). Through step-level evaluation, we identified four key bottlenecks: Physics Theorem Application, Physics Process Understanding, Calculation, and Physics Condition Analysis. These findings position PhysReason as a novel and comprehensive benchmark for evaluating physics-based reasoning capabilities in large language models. Our code and data will be published at https:/dxzxy12138.github.io/PhysReason.

PhysReason : Un référentiel exhaustif pour le raisonnement basé sur la physique

PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

papers.abstract

Support