PhysReason: Um Benchmark Abrangente para o Raciocínio Baseado em Física

Resumo

Grandes modelos de linguagem demonstram capacidades notáveis em vários domínios, especialmente em matemática e raciocínio lógico. No entanto, as avaliações atuais negligenciam o raciocínio baseado em física - uma tarefa complexa que requer teoremas e restrições físicas. Apresentamos o PhysReason, um benchmark composto por 1.200 problemas, divididos em problemas baseados em conhecimento (25%) e problemas baseados em raciocínio (75%), onde os últimos são categorizados em três níveis de dificuldade (fácil, médio, difícil). Notavelmente, os problemas exigem uma média de 8,1 etapas de solução, com os difíceis exigindo 15,6, refletindo a complexidade do raciocínio baseado em física. Propomos o Physics Solution Auto Scoring Framework, que incorpora avaliações eficientes em nível de resposta e avaliações abrangentes em nível de etapa. Modelos de alto desempenho, como Deepseek-R1, Gemini-2.0-Flash-Thinking e o3-mini-high, obtêm menos de 60% na avaliação em nível de resposta, com o desempenho caindo de questões de conhecimento (75,11%) para problemas difíceis (31,95%). Através da avaliação em nível de etapa, identificamos quatro gargalos principais: Aplicação de Teoremas Físicos, Compreensão de Processos Físicos, Cálculo e Análise de Condições Físicas. Esses resultados posicionam o PhysReason como um benchmark inovador e abrangente para avaliar as capacidades de raciocínio baseado em física em grandes modelos de linguagem. Nosso código e dados serão publicados em https:/dxzxy12138.github.io/PhysReason.

English

Large language models demonstrate remarkable capabilities across various domains, especially mathematics and logic reasoning. However, current evaluations overlook physics-based reasoning - a complex task requiring physics theorems and constraints. We present PhysReason, a 1,200-problem benchmark comprising knowledge-based (25%) and reasoning-based (75%) problems, where the latter are divided into three difficulty levels (easy, medium, hard). Notably, problems require an average of 8.1 solution steps, with hard requiring 15.6, reflecting the complexity of physics-based reasoning. We propose the Physics Solution Auto Scoring Framework, incorporating efficient answer-level and comprehensive step-level evaluations. Top-performing models like Deepseek-R1, Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on answer-level evaluation, with performance dropping from knowledge questions (75.11%) to hard problems (31.95%). Through step-level evaluation, we identified four key bottlenecks: Physics Theorem Application, Physics Process Understanding, Calculation, and Physics Condition Analysis. These findings position PhysReason as a novel and comprehensive benchmark for evaluating physics-based reasoning capabilities in large language models. Our code and data will be published at https:/dxzxy12138.github.io/PhysReason.

PhysReason: Um Benchmark Abrangente para o Raciocínio Baseado em Física

PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

Resumo

Support