ChatPaper.aiChatPaper

PhyX: Seu Modelo Tem a "Inteligência" para o Raciocínio Físico?

PhyX: Does Your Model Have the "Wits" for Physical Reasoning?

May 21, 2025
Autores: Hui Shen, Taiqiang Wu, Qi Han, Yunta Hsieh, Jizhou Wang, Yuyue Zhang, Yuxin Cheng, Zijian Hao, Yuansheng Ni, Xin Wang, Zhongwei Wan, Kai Zhang, Wendong Xu, Jing Xiong, Ping Luo, Wenhu Chen, Chaofan Tao, Zhuoqing Mao, Ngai Wong
cs.AI

Resumo

Os benchmarks existentes falham em capturar um aspecto crucial da inteligência: o raciocínio físico, a capacidade integrada de combinar conhecimento de domínio, raciocínio simbólico e compreensão das restrições do mundo real. Para abordar essa lacuna, apresentamos o PhyX: o primeiro benchmark em larga escala projetado para avaliar a capacidade dos modelos de raciocínio fundamentado em física em cenários visuais. O PhyX inclui 3 mil questões multimodais meticulosamente curadas, abrangendo 6 tipos de raciocínio em 25 subdomínios e 6 domínios principais da física: termodinâmica, eletromagnetismo, mecânica, física moderna, óptica e ondas e acústica. Em nossa avaliação abrangente, até mesmo os modelos state-of-the-art enfrentam dificuldades significativas com o raciocínio físico. GPT-4o, Claude3.7-Sonnet e GPT-o4-mini atingem apenas 32,5%, 42,2% e 45,8% de precisão, respectivamente — lacunas de desempenho que excedem 29% em comparação com especialistas humanos. Nossa análise expõe limitações críticas nos modelos atuais: excesso de dependência de conhecimento disciplinar memorizado, dependência excessiva de formulações matemáticas e correspondência superficial de padrões visuais em vez de uma compreensão física genuína. Fornecemos uma análise detalhada por meio de estatísticas refinadas, estudos de caso detalhados e múltiplos paradigmas de avaliação para examinar minuciosamente as capacidades de raciocínio físico. Para garantir a reprodutibilidade, implementamos um protocolo de avaliação compatível baseado em kits de ferramentas amplamente utilizados, como o VLMEvalKit, permitindo avaliação com um único clique.
English
Existing benchmarks fail to capture a crucial aspect of intelligence: physical reasoning, the integrated ability to combine domain knowledge, symbolic reasoning, and understanding of real-world constraints. To address this gap, we introduce PhyX: the first large-scale benchmark designed to assess models capacity for physics-grounded reasoning in visual scenarios. PhyX includes 3K meticulously curated multimodal questions spanning 6 reasoning types across 25 sub-domains and 6 core physics domains: thermodynamics, electromagnetism, mechanics, modern physics, optics, and wave\&acoustics. In our comprehensive evaluation, even state-of-the-art models struggle significantly with physical reasoning. GPT-4o, Claude3.7-Sonnet, and GPT-o4-mini achieve only 32.5\%, 42.2\%, and 45.8\% accuracy respectively-performance gaps exceeding 29\% compared to human experts. Our analysis exposes critical limitations in current models: over-reliance on memorized disciplinary knowledge, excessive dependence on mathematical formulations, and surface-level visual pattern matching rather than genuine physical understanding. We provide in-depth analysis through fine-grained statistics, detailed case studies, and multiple evaluation paradigms to thoroughly examine physical reasoning capabilities. To ensure reproducibility, we implement a compatible evaluation protocol based on widely-used toolkits such as VLMEvalKit, enabling one-click evaluation.
PDF494May 26, 2025