ChatPaper.aiChatPaper

PhyX: Heeft jouw model het "verstand" voor fysieke redenering?

PhyX: Does Your Model Have the "Wits" for Physical Reasoning?

May 21, 2025
Auteurs: Hui Shen, Taiqiang Wu, Qi Han, Yunta Hsieh, Jizhou Wang, Yuyue Zhang, Yuxin Cheng, Zijian Hao, Yuansheng Ni, Xin Wang, Zhongwei Wan, Kai Zhang, Wendong Xu, Jing Xiong, Ping Luo, Wenhu Chen, Chaofan Tao, Zhuoqing Mao, Ngai Wong
cs.AI

Samenvatting

Bestaande benchmarks slagen er niet in een cruciaal aspect van intelligentie vast te leggen: fysiek redeneren, het geïntegreerde vermogen om domeinkennis, symbolisch redeneren en begrip van real-world beperkingen te combineren. Om dit gat te dichten, introduceren we PhyX: de eerste grootschalige benchmark die is ontworpen om het vermogen van modellen voor fysica-grondig redeneren in visuele scenario's te beoordelen. PhyX omvat 3K zorgvuldig samengestelde multimodale vragen die 6 redeneertypes beslaan over 25 subdomeinen en 6 kernfysicadomeinen: thermodynamica, elektromagnetisme, mechanica, moderne fysica, optica en golven\&akoestiek. In onze uitgebreide evaluatie worstelen zelfs state-of-the-art modellen aanzienlijk met fysiek redeneren. GPT-4o, Claude3.7-Sonnet en GPT-o4-mini behalen slechts respectievelijk 32,5\%, 42,2\% en 45,8\% nauwkeurigheid – prestatieverschillen van meer dan 29\% vergeleken met menselijke experts. Onze analyse legt kritieke beperkingen bloot in huidige modellen: overmatige afhankelijkheid van gememoriseerde disciplinaire kennis, buitensporige afhankelijkheid van wiskundige formuleringen en oppervlakkige visuele patroonherkenning in plaats van echt fysiek begrip. We bieden diepgaande analyse via fijnmazige statistieken, gedetailleerde casestudies en meerdere evaluatieparadigma's om fysieke redeneervaardigheden grondig te onderzoeken. Om reproduceerbaarheid te garanderen, implementeren we een compatibel evaluatieprotocol gebaseerd op veelgebruikte toolkits zoals VLMEvalKit, waardoor een éénkliksevaluatie mogelijk wordt.
English
Existing benchmarks fail to capture a crucial aspect of intelligence: physical reasoning, the integrated ability to combine domain knowledge, symbolic reasoning, and understanding of real-world constraints. To address this gap, we introduce PhyX: the first large-scale benchmark designed to assess models capacity for physics-grounded reasoning in visual scenarios. PhyX includes 3K meticulously curated multimodal questions spanning 6 reasoning types across 25 sub-domains and 6 core physics domains: thermodynamics, electromagnetism, mechanics, modern physics, optics, and wave\&acoustics. In our comprehensive evaluation, even state-of-the-art models struggle significantly with physical reasoning. GPT-4o, Claude3.7-Sonnet, and GPT-o4-mini achieve only 32.5\%, 42.2\%, and 45.8\% accuracy respectively-performance gaps exceeding 29\% compared to human experts. Our analysis exposes critical limitations in current models: over-reliance on memorized disciplinary knowledge, excessive dependence on mathematical formulations, and surface-level visual pattern matching rather than genuine physical understanding. We provide in-depth analysis through fine-grained statistics, detailed case studies, and multiple evaluation paradigms to thoroughly examine physical reasoning capabilities. To ensure reproducibility, we implement a compatible evaluation protocol based on widely-used toolkits such as VLMEvalKit, enabling one-click evaluation.
PDF494May 26, 2025