ChatPaper.aiChatPaper

PhyX: Il tuo modello possiede l'"intelligenza" per il ragionamento fisico?

PhyX: Does Your Model Have the "Wits" for Physical Reasoning?

May 21, 2025
Autori: Hui Shen, Taiqiang Wu, Qi Han, Yunta Hsieh, Jizhou Wang, Yuyue Zhang, Yuxin Cheng, Zijian Hao, Yuansheng Ni, Xin Wang, Zhongwei Wan, Kai Zhang, Wendong Xu, Jing Xiong, Ping Luo, Wenhu Chen, Chaofan Tao, Zhuoqing Mao, Ngai Wong
cs.AI

Abstract

I benchmark esistenti non riescono a cogliere un aspetto cruciale dell'intelligenza: il ragionamento fisico, ovvero la capacità integrata di combinare conoscenze di dominio, ragionamento simbolico e comprensione dei vincoli del mondo reale. Per colmare questa lacuna, introduciamo PhyX: il primo benchmark su larga scala progettato per valutare la capacità dei modelli di ragionare in modo fondato sulla fisica in scenari visivi. PhyX include 3K domande multimodali accuratamente curate, che coprono 6 tipi di ragionamento in 25 sottodomini e 6 aree principali della fisica: termodinamica, elettromagnetismo, meccanica, fisica moderna, ottica e onde\&acustica. Nella nostra valutazione completa, anche i modelli all'avanguardia mostrano notevoli difficoltà nel ragionamento fisico. GPT-4o, Claude3.7-Sonnet e GPT-o4-mini raggiungono rispettivamente solo il 32,5\%, il 42,2\% e il 45,8\% di accuratezza, con divari di prestazione superiori al 29\% rispetto agli esperti umani. La nostra analisi rivela limitazioni critiche nei modelli attuali: eccessiva dipendenza da conoscenze disciplinari memorizzate, affidamento eccessivo su formulazioni matematiche e corrispondenza superficiale di pattern visivi piuttosto che una comprensione fisica genuina. Forniamo un'analisi approfondita attraverso statistiche dettagliate, studi di caso specifici e molteplici paradigmi di valutazione per esaminare a fondo le capacità di ragionamento fisico. Per garantire la riproducibilità, implementiamo un protocollo di valutazione compatibile basato su toolkit ampiamente utilizzati come VLMEvalKit, che consente una valutazione con un solo clic.
English
Existing benchmarks fail to capture a crucial aspect of intelligence: physical reasoning, the integrated ability to combine domain knowledge, symbolic reasoning, and understanding of real-world constraints. To address this gap, we introduce PhyX: the first large-scale benchmark designed to assess models capacity for physics-grounded reasoning in visual scenarios. PhyX includes 3K meticulously curated multimodal questions spanning 6 reasoning types across 25 sub-domains and 6 core physics domains: thermodynamics, electromagnetism, mechanics, modern physics, optics, and wave\&acoustics. In our comprehensive evaluation, even state-of-the-art models struggle significantly with physical reasoning. GPT-4o, Claude3.7-Sonnet, and GPT-o4-mini achieve only 32.5\%, 42.2\%, and 45.8\% accuracy respectively-performance gaps exceeding 29\% compared to human experts. Our analysis exposes critical limitations in current models: over-reliance on memorized disciplinary knowledge, excessive dependence on mathematical formulations, and surface-level visual pattern matching rather than genuine physical understanding. We provide in-depth analysis through fine-grained statistics, detailed case studies, and multiple evaluation paradigms to thoroughly examine physical reasoning capabilities. To ensure reproducibility, we implement a compatible evaluation protocol based on widely-used toolkits such as VLMEvalKit, enabling one-click evaluation.
PDF494May 26, 2025