ChatPaper.aiChatPaper

PhyX : Votre modèle possède-t-il l'"intelligence" nécessaire pour le raisonnement physique ?

PhyX: Does Your Model Have the "Wits" for Physical Reasoning?

May 21, 2025
Auteurs: Hui Shen, Taiqiang Wu, Qi Han, Yunta Hsieh, Jizhou Wang, Yuyue Zhang, Yuxin Cheng, Zijian Hao, Yuansheng Ni, Xin Wang, Zhongwei Wan, Kai Zhang, Wendong Xu, Jing Xiong, Ping Luo, Wenhu Chen, Chaofan Tao, Zhuoqing Mao, Ngai Wong
cs.AI

Résumé

Les benchmarks existants ne parviennent pas à capturer un aspect crucial de l'intelligence : le raisonnement physique, c'est-à-dire la capacité intégrée à combiner des connaissances spécifiques à un domaine, un raisonnement symbolique et une compréhension des contraintes du monde réel. Pour combler cette lacune, nous introduisons PhyX : le premier benchmark à grande échelle conçu pour évaluer la capacité des modèles à raisonner de manière ancrée dans la physique dans des scénarios visuels. PhyX comprend 3 000 questions multimodales soigneusement sélectionnées, couvrant 6 types de raisonnement répartis dans 25 sous-domaines et 6 domaines fondamentaux de la physique : thermodynamique, électromagnétisme, mécanique, physique moderne, optique, et ondes & acoustique. Dans notre évaluation approfondie, même les modèles les plus avancés peinent considérablement avec le raisonnement physique. GPT-4o, Claude3.7-Sonnet et GPT-o4-mini atteignent respectivement des précisions de 32,5 %, 42,2 % et 45,8 % — des écarts de performance dépassant 29 % par rapport aux experts humains. Notre analyse révèle des limites critiques des modèles actuels : une dépendance excessive aux connaissances disciplinaires mémorisées, un recours excessif aux formulations mathématiques, et une correspondance superficielle des motifs visuels plutôt qu'une compréhension physique authentique. Nous fournissons une analyse approfondie à travers des statistiques granulaires, des études de cas détaillées et plusieurs paradigmes d'évaluation pour examiner minutieusement les capacités de raisonnement physique. Pour garantir la reproductibilité, nous mettons en œuvre un protocole d'évaluation compatible basé sur des outils largement utilisés tels que VLMEvalKit, permettant une évaluation en un seul clic.
English
Existing benchmarks fail to capture a crucial aspect of intelligence: physical reasoning, the integrated ability to combine domain knowledge, symbolic reasoning, and understanding of real-world constraints. To address this gap, we introduce PhyX: the first large-scale benchmark designed to assess models capacity for physics-grounded reasoning in visual scenarios. PhyX includes 3K meticulously curated multimodal questions spanning 6 reasoning types across 25 sub-domains and 6 core physics domains: thermodynamics, electromagnetism, mechanics, modern physics, optics, and wave\&acoustics. In our comprehensive evaluation, even state-of-the-art models struggle significantly with physical reasoning. GPT-4o, Claude3.7-Sonnet, and GPT-o4-mini achieve only 32.5\%, 42.2\%, and 45.8\% accuracy respectively-performance gaps exceeding 29\% compared to human experts. Our analysis exposes critical limitations in current models: over-reliance on memorized disciplinary knowledge, excessive dependence on mathematical formulations, and surface-level visual pattern matching rather than genuine physical understanding. We provide in-depth analysis through fine-grained statistics, detailed case studies, and multiple evaluation paradigms to thoroughly examine physical reasoning capabilities. To ensure reproducibility, we implement a compatible evaluation protocol based on widely-used toolkits such as VLMEvalKit, enabling one-click evaluation.

Summary

AI-Generated Summary

PDF474May 26, 2025