ChatPaper.aiChatPaper

PhysReason: Un referente integral hacia el razonamiento basado en la física

PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

February 17, 2025
Autores: Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu
cs.AI

Resumen

Los grandes modelos de lenguaje demuestran capacidades notables en diversos dominios, especialmente en matemáticas y razonamiento lógico. Sin embargo, las evaluaciones actuales pasan por alto el razonamiento basado en la física, una tarea compleja que requiere teoremas y restricciones físicas. Presentamos PhysReason, un banco de pruebas de 1,200 problemas que comprende problemas basados en conocimiento (25%) y problemas basados en razonamiento (75%), donde estos últimos se dividen en tres niveles de dificultad (fácil, medio, difícil). Es importante destacar que los problemas requieren un promedio de 8.1 pasos de solución, siendo 15.6 para los difíciles, lo que refleja la complejidad del razonamiento basado en la física. Proponemos el Marco de Puntuación Automática de Soluciones Físicas, que incorpora evaluaciones eficientes a nivel de respuesta y a nivel de pasos exhaustivos. Modelos de alto rendimiento como Deepseek-R1, Gemini-2.0-Flash-Thinking y o3-mini-high logran menos del 60% en la evaluación a nivel de respuesta, con un rendimiento que disminuye desde preguntas de conocimiento (75.11%) hasta problemas difíciles (31.95%). A través de la evaluación a nivel de pasos, identificamos cuatro cuellos de botella clave: Aplicación de Teoremas de Física, Comprensión de Procesos Físicos, Cálculos y Análisis de Condiciones Físicas. Estos hallazgos posicionan a PhysReason como un banco de pruebas novedoso y completo para evaluar las capacidades de razonamiento basado en la física en grandes modelos de lenguaje. Nuestro código y datos se publicarán en https:/dxzxy12138.github.io/PhysReason.
English
Large language models demonstrate remarkable capabilities across various domains, especially mathematics and logic reasoning. However, current evaluations overlook physics-based reasoning - a complex task requiring physics theorems and constraints. We present PhysReason, a 1,200-problem benchmark comprising knowledge-based (25%) and reasoning-based (75%) problems, where the latter are divided into three difficulty levels (easy, medium, hard). Notably, problems require an average of 8.1 solution steps, with hard requiring 15.6, reflecting the complexity of physics-based reasoning. We propose the Physics Solution Auto Scoring Framework, incorporating efficient answer-level and comprehensive step-level evaluations. Top-performing models like Deepseek-R1, Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on answer-level evaluation, with performance dropping from knowledge questions (75.11%) to hard problems (31.95%). Through step-level evaluation, we identified four key bottlenecks: Physics Theorem Application, Physics Process Understanding, Calculation, and Physics Condition Analysis. These findings position PhysReason as a novel and comprehensive benchmark for evaluating physics-based reasoning capabilities in large language models. Our code and data will be published at https:/dxzxy12138.github.io/PhysReason.

Summary

AI-Generated Summary

PDF72February 18, 2025