PhyX: あなたのモデルは物理的推論の「知性」を持っているか?
PhyX: Does Your Model Have the "Wits" for Physical Reasoning?
May 21, 2025
著者: Hui Shen, Taiqiang Wu, Qi Han, Yunta Hsieh, Jizhou Wang, Yuyue Zhang, Yuxin Cheng, Zijian Hao, Yuansheng Ni, Xin Wang, Zhongwei Wan, Kai Zhang, Wendong Xu, Jing Xiong, Ping Luo, Wenhu Chen, Chaofan Tao, Zhuoqing Mao, Ngai Wong
cs.AI
要旨
既存のベンチマークは、知性の重要な側面である物理的推論、すなわちドメイン知識、記号的推論、現実世界の制約理解を統合する能力を捉えられていません。このギャップを埋めるため、我々はPhyXを導入します。PhyXは、視覚的シナリオにおける物理的基盤に基づく推論能力を評価する初の大規模ベンチマークです。PhyXは、熱力学、電磁気学、力学、現代物理学、光学、波動・音響学の6つの核心物理領域にわたる25のサブドメインと6つの推論タイプをカバーする3,000の入念に選ばれたマルチモーダル問題を含んでいます。我々の包括的評価では、最先端のモデルでさえ物理的推論に大きな苦戦を強いられています。GPT-4o、Claude3.7-Sonnet、GPT-o4-miniはそれぞれ32.5%、42.2%、45.8%の精度しか達成できず、人間の専門家との性能差は29%以上に及びます。我々の分析は、現在のモデルにおける重大な限界を明らかにしています:記憶された学問的知識への過度の依存、数学的定式化への過剰な依存、そして真の物理的理解ではなく表面的な視覚的パターンマッチングです。我々は、細かな統計、詳細なケーススタディ、複数の評価パラダイムを通じて、物理的推論能力を徹底的に検証するための詳細な分析を提供します。再現性を確保するため、VLMEvalKitなどの広く使用されているツールキットに基づいた互換性のある評価プロトコルを実装し、ワンクリックでの評価を可能にしています。
English
Existing benchmarks fail to capture a crucial aspect of intelligence:
physical reasoning, the integrated ability to combine domain knowledge,
symbolic reasoning, and understanding of real-world constraints. To address
this gap, we introduce PhyX: the first large-scale benchmark designed to assess
models capacity for physics-grounded reasoning in visual scenarios. PhyX
includes 3K meticulously curated multimodal questions spanning 6 reasoning
types across 25 sub-domains and 6 core physics domains: thermodynamics,
electromagnetism, mechanics, modern physics, optics, and wave\&acoustics. In
our comprehensive evaluation, even state-of-the-art models struggle
significantly with physical reasoning. GPT-4o, Claude3.7-Sonnet, and
GPT-o4-mini achieve only 32.5\%, 42.2\%, and 45.8\% accuracy
respectively-performance gaps exceeding 29\% compared to human experts. Our
analysis exposes critical limitations in current models: over-reliance on
memorized disciplinary knowledge, excessive dependence on mathematical
formulations, and surface-level visual pattern matching rather than genuine
physical understanding. We provide in-depth analysis through fine-grained
statistics, detailed case studies, and multiple evaluation paradigms to
thoroughly examine physical reasoning capabilities. To ensure reproducibility,
we implement a compatible evaluation protocol based on widely-used toolkits
such as VLMEvalKit, enabling one-click evaluation.Summary
AI-Generated Summary