PhysReason: Комплексный эталонный тест для оценки физически обоснованных рассуждений
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning
February 17, 2025
Авторы: Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu
cs.AI
Аннотация
Крупные языковые модели демонстрируют впечатляющие способности в различных областях, особенно в математике и логическом мышлении. Однако текущие оценки упускают из виду физическое рассуждение — сложную задачу, требующую применения физических теорем и ограничений. Мы представляем PhysReason, набор из 1200 задач, включающий вопросы на основе знаний (25%) и задачи на рассуждение (75%), где последние разделены на три уровня сложности (легкий, средний, сложный). Примечательно, что задачи требуют в среднем 8,1 шага для решения, а сложные задачи — 15,6, что отражает сложность физического рассуждения. Мы предлагаем Фреймворк автоматической оценки физических решений, включающий эффективную оценку на уровне ответов и всестороннюю оценку на уровне шагов. Лучшие модели, такие как Deepseek-R1, Gemini-2.0-Flash-Thinking и o3-mini-high, показывают менее 60% на уровне ответов, при этом производительность снижается от вопросов на знания (75,11%) до сложных задач (31,95%). С помощью оценки на уровне шагов мы выявили четыре ключевых узких места: Применение физических теорем, Понимание физических процессов, Вычисления и Анализ физических условий. Эти результаты позиционируют PhysReason как новый и всеобъемлющий бенчмарк для оценки способностей крупных языковых моделей к физическому рассуждению. Наш код и данные будут опубликованы на https://dxzxy12138.github.io/PhysReason.
English
Large language models demonstrate remarkable capabilities across various
domains, especially mathematics and logic reasoning. However, current
evaluations overlook physics-based reasoning - a complex task requiring physics
theorems and constraints. We present PhysReason, a 1,200-problem benchmark
comprising knowledge-based (25%) and reasoning-based (75%) problems, where the
latter are divided into three difficulty levels (easy, medium, hard). Notably,
problems require an average of 8.1 solution steps, with hard requiring 15.6,
reflecting the complexity of physics-based reasoning. We propose the Physics
Solution Auto Scoring Framework, incorporating efficient answer-level and
comprehensive step-level evaluations. Top-performing models like Deepseek-R1,
Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on
answer-level evaluation, with performance dropping from knowledge questions
(75.11%) to hard problems (31.95%). Through step-level evaluation, we
identified four key bottlenecks: Physics Theorem Application, Physics Process
Understanding, Calculation, and Physics Condition Analysis. These findings
position PhysReason as a novel and comprehensive benchmark for evaluating
physics-based reasoning capabilities in large language models. Our code and
data will be published at https:/dxzxy12138.github.io/PhysReason.Summary
AI-Generated Summary