PhysReason: Um Benchmark Abrangente para o Raciocínio Baseado em Física
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning
February 17, 2025
Autores: Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu
cs.AI
Resumo
Grandes modelos de linguagem demonstram capacidades notáveis em vários domínios, especialmente em matemática e raciocínio lógico. No entanto, as avaliações atuais negligenciam o raciocínio baseado em física - uma tarefa complexa que requer teoremas e restrições físicas. Apresentamos o PhysReason, um benchmark composto por 1.200 problemas, divididos em problemas baseados em conhecimento (25%) e problemas baseados em raciocínio (75%), onde os últimos são categorizados em três níveis de dificuldade (fácil, médio, difícil). Notavelmente, os problemas exigem uma média de 8,1 etapas de solução, com os difíceis exigindo 15,6, refletindo a complexidade do raciocínio baseado em física. Propomos o Physics Solution Auto Scoring Framework, que incorpora avaliações eficientes em nível de resposta e avaliações abrangentes em nível de etapa. Modelos de alto desempenho, como Deepseek-R1, Gemini-2.0-Flash-Thinking e o3-mini-high, obtêm menos de 60% na avaliação em nível de resposta, com o desempenho caindo de questões de conhecimento (75,11%) para problemas difíceis (31,95%). Através da avaliação em nível de etapa, identificamos quatro gargalos principais: Aplicação de Teoremas Físicos, Compreensão de Processos Físicos, Cálculo e Análise de Condições Físicas. Esses resultados posicionam o PhysReason como um benchmark inovador e abrangente para avaliar as capacidades de raciocínio baseado em física em grandes modelos de linguagem. Nosso código e dados serão publicados em https:/dxzxy12138.github.io/PhysReason.
English
Large language models demonstrate remarkable capabilities across various
domains, especially mathematics and logic reasoning. However, current
evaluations overlook physics-based reasoning - a complex task requiring physics
theorems and constraints. We present PhysReason, a 1,200-problem benchmark
comprising knowledge-based (25%) and reasoning-based (75%) problems, where the
latter are divided into three difficulty levels (easy, medium, hard). Notably,
problems require an average of 8.1 solution steps, with hard requiring 15.6,
reflecting the complexity of physics-based reasoning. We propose the Physics
Solution Auto Scoring Framework, incorporating efficient answer-level and
comprehensive step-level evaluations. Top-performing models like Deepseek-R1,
Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on
answer-level evaluation, with performance dropping from knowledge questions
(75.11%) to hard problems (31.95%). Through step-level evaluation, we
identified four key bottlenecks: Physics Theorem Application, Physics Process
Understanding, Calculation, and Physics Condition Analysis. These findings
position PhysReason as a novel and comprehensive benchmark for evaluating
physics-based reasoning capabilities in large language models. Our code and
data will be published at https:/dxzxy12138.github.io/PhysReason.Summary
AI-Generated Summary