ChatPaper.aiChatPaper

PhysReason: Um Benchmark Abrangente para o Raciocínio Baseado em Física

PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

February 17, 2025
Autores: Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu
cs.AI

Resumo

Grandes modelos de linguagem demonstram capacidades notáveis em vários domínios, especialmente em matemática e raciocínio lógico. No entanto, as avaliações atuais negligenciam o raciocínio baseado em física - uma tarefa complexa que requer teoremas e restrições físicas. Apresentamos o PhysReason, um benchmark composto por 1.200 problemas, divididos em problemas baseados em conhecimento (25%) e problemas baseados em raciocínio (75%), onde os últimos são categorizados em três níveis de dificuldade (fácil, médio, difícil). Notavelmente, os problemas exigem uma média de 8,1 etapas de solução, com os difíceis exigindo 15,6, refletindo a complexidade do raciocínio baseado em física. Propomos o Physics Solution Auto Scoring Framework, que incorpora avaliações eficientes em nível de resposta e avaliações abrangentes em nível de etapa. Modelos de alto desempenho, como Deepseek-R1, Gemini-2.0-Flash-Thinking e o3-mini-high, obtêm menos de 60% na avaliação em nível de resposta, com o desempenho caindo de questões de conhecimento (75,11%) para problemas difíceis (31,95%). Através da avaliação em nível de etapa, identificamos quatro gargalos principais: Aplicação de Teoremas Físicos, Compreensão de Processos Físicos, Cálculo e Análise de Condições Físicas. Esses resultados posicionam o PhysReason como um benchmark inovador e abrangente para avaliar as capacidades de raciocínio baseado em física em grandes modelos de linguagem. Nosso código e dados serão publicados em https:/dxzxy12138.github.io/PhysReason.
English
Large language models demonstrate remarkable capabilities across various domains, especially mathematics and logic reasoning. However, current evaluations overlook physics-based reasoning - a complex task requiring physics theorems and constraints. We present PhysReason, a 1,200-problem benchmark comprising knowledge-based (25%) and reasoning-based (75%) problems, where the latter are divided into three difficulty levels (easy, medium, hard). Notably, problems require an average of 8.1 solution steps, with hard requiring 15.6, reflecting the complexity of physics-based reasoning. We propose the Physics Solution Auto Scoring Framework, incorporating efficient answer-level and comprehensive step-level evaluations. Top-performing models like Deepseek-R1, Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on answer-level evaluation, with performance dropping from knowledge questions (75.11%) to hard problems (31.95%). Through step-level evaluation, we identified four key bottlenecks: Physics Theorem Application, Physics Process Understanding, Calculation, and Physics Condition Analysis. These findings position PhysReason as a novel and comprehensive benchmark for evaluating physics-based reasoning capabilities in large language models. Our code and data will be published at https:/dxzxy12138.github.io/PhysReason.

Summary

AI-Generated Summary

PDF72February 18, 2025