ChatPaper.aiChatPaper

PhyX: Обладает ли ваша модель "сообразительностью" для физического рассуждения?

PhyX: Does Your Model Have the "Wits" for Physical Reasoning?

May 21, 2025
Авторы: Hui Shen, Taiqiang Wu, Qi Han, Yunta Hsieh, Jizhou Wang, Yuyue Zhang, Yuxin Cheng, Zijian Hao, Yuansheng Ni, Xin Wang, Zhongwei Wan, Kai Zhang, Wendong Xu, Jing Xiong, Ping Luo, Wenhu Chen, Chaofan Tao, Zhuoqing Mao, Ngai Wong
cs.AI

Аннотация

Существующие тестовые наборы не охватывают важнейший аспект интеллекта: физическое мышление — интегрированную способность комбинировать предметные знания, символическое рассуждение и понимание реальных ограничений. Чтобы устранить этот пробел, мы представляем PhyX: первый крупномасштабный тестовый набор, предназначенный для оценки способности моделей к физически обоснованному рассуждению в визуальных сценариях. PhyX включает 3 тысячи тщательно отобранных мультимодальных вопросов, охватывающих 6 типов рассуждений в 25 поддоменах и 6 основных физических областях: термодинамике, электромагнетизме, механике, современной физике, оптике, а также волнах и акустике. В нашем всестороннем анализе даже современные модели демонстрируют значительные трудности с физическим мышлением. GPT-4o, Claude3.7-Sonnet и GPT-o4-mini достигают точности всего 32,5\%, 42,2\% и 45,8\% соответственно — разрыв в производительности превышает 29\% по сравнению с экспертами-людьми. Наш анализ выявляет ключевые ограничения текущих моделей: чрезмерная зависимость от заученных дисциплинарных знаний, избыточная опора на математические формулировки и поверхностное сопоставление визуальных паттернов вместо подлинного физического понимания. Мы предоставляем детальный анализ через детализированную статистику, подробные кейс-стади и множественные парадигмы оценки для тщательного изучения способностей к физическому мышлению. Для обеспечения воспроизводимости мы реализуем совместимый протокол оценки на основе широко используемых инструментов, таких как VLMEvalKit, что позволяет проводить оценку в один клик.
English
Existing benchmarks fail to capture a crucial aspect of intelligence: physical reasoning, the integrated ability to combine domain knowledge, symbolic reasoning, and understanding of real-world constraints. To address this gap, we introduce PhyX: the first large-scale benchmark designed to assess models capacity for physics-grounded reasoning in visual scenarios. PhyX includes 3K meticulously curated multimodal questions spanning 6 reasoning types across 25 sub-domains and 6 core physics domains: thermodynamics, electromagnetism, mechanics, modern physics, optics, and wave\&acoustics. In our comprehensive evaluation, even state-of-the-art models struggle significantly with physical reasoning. GPT-4o, Claude3.7-Sonnet, and GPT-o4-mini achieve only 32.5\%, 42.2\%, and 45.8\% accuracy respectively-performance gaps exceeding 29\% compared to human experts. Our analysis exposes critical limitations in current models: over-reliance on memorized disciplinary knowledge, excessive dependence on mathematical formulations, and surface-level visual pattern matching rather than genuine physical understanding. We provide in-depth analysis through fine-grained statistics, detailed case studies, and multiple evaluation paradigms to thoroughly examine physical reasoning capabilities. To ensure reproducibility, we implement a compatible evaluation protocol based on widely-used toolkits such as VLMEvalKit, enabling one-click evaluation.

Summary

AI-Generated Summary

PDF474May 26, 2025