PhyX: Verfügt Ihr Modell über die „Intelligenz“ für physikalisches Denken?
PhyX: Does Your Model Have the "Wits" for Physical Reasoning?
May 21, 2025
Autoren: Hui Shen, Taiqiang Wu, Qi Han, Yunta Hsieh, Jizhou Wang, Yuyue Zhang, Yuxin Cheng, Zijian Hao, Yuansheng Ni, Xin Wang, Zhongwei Wan, Kai Zhang, Wendong Xu, Jing Xiong, Ping Luo, Wenhu Chen, Chaofan Tao, Zhuoqing Mao, Ngai Wong
cs.AI
Zusammenfassung
Bestehende Benchmarks erfassen einen entscheidenden Aspekt der Intelligenz nicht: das physikalische Denken, also die integrierte Fähigkeit, Domänenwissen, symbolisches Denken und das Verständnis realer Einschränkungen zu kombinieren. Um diese Lücke zu schließen, stellen wir PhyX vor: den ersten groß angelegten Benchmark, der entwickelt wurde, um die Fähigkeit von Modellen zur physikalisch fundierten Argumentation in visuellen Szenarien zu bewerten. PhyX umfasst 3.000 sorgfältig kuratierte multimodale Fragen, die 6 Denktypen über 25 Subdomänen und 6 Kernbereiche der Physik abdecken: Thermodynamik, Elektromagnetismus, Mechanik, moderne Physik, Optik sowie Wellen und Akustik. In unserer umfassenden Evaluation zeigen selbst state-of-the-art Modelle erhebliche Schwierigkeiten beim physikalischen Denken. GPT-4o, Claude3.7-Sonnet und GPT-o4-mini erreichen lediglich 32,5 %, 42,2 % bzw. 45,8 % Genauigkeit – eine Leistungslücke von über 29 % im Vergleich zu menschlichen Experten. Unsere Analyse deckt kritische Einschränkungen aktueller Modelle auf: übermäßige Abhängigkeit von auswendig gelerntem Fachwissen, zu starke Fokussierung auf mathematische Formulierungen und oberflächliches visuelles Mustererkennen anstelle eines echten physikalischen Verständnisses. Wir bieten eine detaillierte Analyse durch fein abgestufte Statistiken, umfassende Fallstudien und multiple Evaluationsparadigmen, um physikalisches Denken gründlich zu untersuchen. Um die Reproduzierbarkeit zu gewährleisten, implementieren wir ein kompatibles Evaluationsprotokoll basierend auf weit verbreiteten Toolkits wie VLMEvalKit, das eine Ein-Klick-Evaluation ermöglicht.
English
Existing benchmarks fail to capture a crucial aspect of intelligence:
physical reasoning, the integrated ability to combine domain knowledge,
symbolic reasoning, and understanding of real-world constraints. To address
this gap, we introduce PhyX: the first large-scale benchmark designed to assess
models capacity for physics-grounded reasoning in visual scenarios. PhyX
includes 3K meticulously curated multimodal questions spanning 6 reasoning
types across 25 sub-domains and 6 core physics domains: thermodynamics,
electromagnetism, mechanics, modern physics, optics, and wave\&acoustics. In
our comprehensive evaluation, even state-of-the-art models struggle
significantly with physical reasoning. GPT-4o, Claude3.7-Sonnet, and
GPT-o4-mini achieve only 32.5\%, 42.2\%, and 45.8\% accuracy
respectively-performance gaps exceeding 29\% compared to human experts. Our
analysis exposes critical limitations in current models: over-reliance on
memorized disciplinary knowledge, excessive dependence on mathematical
formulations, and surface-level visual pattern matching rather than genuine
physical understanding. We provide in-depth analysis through fine-grained
statistics, detailed case studies, and multiple evaluation paradigms to
thoroughly examine physical reasoning capabilities. To ensure reproducibility,
we implement a compatible evaluation protocol based on widely-used toolkits
such as VLMEvalKit, enabling one-click evaluation.Summary
AI-Generated Summary