ChatPaper.aiChatPaper

PhysReason: Ein umfassender Maßstab für physikbasiertes Schlussfolgern.

PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

February 17, 2025
Autoren: Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu
cs.AI

Zusammenfassung

Große Sprachmodelle zeigen bemerkenswerte Fähigkeiten in verschiedenen Bereichen, insbesondere in Mathematik und logischem Denken. Aktuelle Bewertungen vernachlässigen jedoch physikbasiertes Denken - eine komplexe Aufgabe, die Physiktheoreme und Einschränkungen erfordert. Wir präsentieren PhysReason, einen Benchmark mit 1.200 Problemen, bestehend aus wissensbasierten (25%) und auf Schlussfolgerungen basierenden (75%) Problemen, wobei letztere in drei Schwierigkeitsstufen (leicht, mittel, schwer) unterteilt sind. Bemerkenswert ist, dass die Probleme durchschnittlich 8,1 Lösungsschritte erfordern, wobei schwierige Probleme 15,6 Schritte erfordern, was die Komplexität des physikbasierten Denkens widerspiegelt. Wir schlagen das Physics Solution Auto Scoring Framework vor, das effiziente Bewertungen auf Antwort- und umfassender Schrittebene integriert. Spitzenmodelle wie Deepseek-R1, Gemini-2.0-Flash-Thinking und o3-mini-high erreichen bei der Bewertung auf Antwortebene weniger als 60%, wobei die Leistung von Wissensfragen (75,11%) auf schwierige Probleme (31,95%) abfällt. Durch die Bewertung auf Schrittebene identifizierten wir vier Schlüsselengpässe: Anwendung von Physiktheoremen, Verständnis physikalischer Prozesse, Berechnung und Analyse von physikalischen Bedingungen. Diese Erkenntnisse positionieren PhysReason als einen neuartigen und umfassenden Benchmark zur Bewertung der physikbasierten Denkfähigkeiten großer Sprachmodelle. Unser Code und unsere Daten werden unter https:/dxzxy12138.github.io/PhysReason veröffentlicht.
English
Large language models demonstrate remarkable capabilities across various domains, especially mathematics and logic reasoning. However, current evaluations overlook physics-based reasoning - a complex task requiring physics theorems and constraints. We present PhysReason, a 1,200-problem benchmark comprising knowledge-based (25%) and reasoning-based (75%) problems, where the latter are divided into three difficulty levels (easy, medium, hard). Notably, problems require an average of 8.1 solution steps, with hard requiring 15.6, reflecting the complexity of physics-based reasoning. We propose the Physics Solution Auto Scoring Framework, incorporating efficient answer-level and comprehensive step-level evaluations. Top-performing models like Deepseek-R1, Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on answer-level evaluation, with performance dropping from knowledge questions (75.11%) to hard problems (31.95%). Through step-level evaluation, we identified four key bottlenecks: Physics Theorem Application, Physics Process Understanding, Calculation, and Physics Condition Analysis. These findings position PhysReason as a novel and comprehensive benchmark for evaluating physics-based reasoning capabilities in large language models. Our code and data will be published at https:/dxzxy12138.github.io/PhysReason.

Summary

AI-Generated Summary

PDF72February 18, 2025