ChatPaper.aiChatPaper

PhyX: 당신의 모델은 물리적 추론을 위한 "지능"을 갖추고 있는가?

PhyX: Does Your Model Have the "Wits" for Physical Reasoning?

May 21, 2025
저자: Hui Shen, Taiqiang Wu, Qi Han, Yunta Hsieh, Jizhou Wang, Yuyue Zhang, Yuxin Cheng, Zijian Hao, Yuansheng Ni, Xin Wang, Zhongwei Wan, Kai Zhang, Wendong Xu, Jing Xiong, Ping Luo, Wenhu Chen, Chaofan Tao, Zhuoqing Mao, Ngai Wong
cs.AI

초록

기존 벤치마크는 지능의 중요한 측면인 물리적 추론, 즉 도메인 지식, 기호적 추론, 그리고 현실 세계의 제약 조건을 통합적으로 이해하는 능력을 포착하지 못하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 시각적 시나리오에서 물리학 기반 추론 능력을 평가하기 위해 설계된 첫 번째 대규모 벤치마크인 PhyX를 소개합니다. PhyX는 열역학, 전자기학, 역학, 현대 물리학, 광학, 파동 및 음향학 등 6개의 핵심 물리학 도메인과 25개의 하위 도메인에 걸쳐 3,000개의 세심하게 선별된 다중 모드 질문을 포함합니다. 우리의 포괄적인 평가에서, 최첨단 모델들조차 물리적 추론에서 상당한 어려움을 겪는 것으로 나타났습니다. GPT-4o, Claude3.7-Sonnet, GPT-o4-mini는 각각 32.5%, 42.2%, 45.8%의 정확도를 보였는데, 이는 인간 전문가와 비교하여 29% 이상의 성능 격차를 보입니다. 우리의 분석은 현재 모델들의 주요 한계를 드러냅니다: 기억된 학문적 지식에 대한 과도한 의존, 수학적 공식에 대한 지나친 의존, 그리고 진정한 물리적 이해보다는 표면적인 시각적 패턴 매칭에 치중하는 경향 등이 그것입니다. 우리는 세부 통계, 상세한 사례 연구, 그리고 다양한 평가 패러다임을 통해 물리적 추론 능력을 철저히 검토하는 심층 분석을 제공합니다. 재현성을 보장하기 위해, VLMEvalKit과 같은 널리 사용되는 툴킷을 기반으로 한 호환 가능한 평가 프로토콜을 구현하여 원클릭 평가가 가능하도록 했습니다.
English
Existing benchmarks fail to capture a crucial aspect of intelligence: physical reasoning, the integrated ability to combine domain knowledge, symbolic reasoning, and understanding of real-world constraints. To address this gap, we introduce PhyX: the first large-scale benchmark designed to assess models capacity for physics-grounded reasoning in visual scenarios. PhyX includes 3K meticulously curated multimodal questions spanning 6 reasoning types across 25 sub-domains and 6 core physics domains: thermodynamics, electromagnetism, mechanics, modern physics, optics, and wave\&acoustics. In our comprehensive evaluation, even state-of-the-art models struggle significantly with physical reasoning. GPT-4o, Claude3.7-Sonnet, and GPT-o4-mini achieve only 32.5\%, 42.2\%, and 45.8\% accuracy respectively-performance gaps exceeding 29\% compared to human experts. Our analysis exposes critical limitations in current models: over-reliance on memorized disciplinary knowledge, excessive dependence on mathematical formulations, and surface-level visual pattern matching rather than genuine physical understanding. We provide in-depth analysis through fine-grained statistics, detailed case studies, and multiple evaluation paradigms to thoroughly examine physical reasoning capabilities. To ensure reproducibility, we implement a compatible evaluation protocol based on widely-used toolkits such as VLMEvalKit, enabling one-click evaluation.

Summary

AI-Generated Summary

PDF474May 26, 2025