ChatPaper.aiChatPaper

PhyX: ¿Tu modelo tiene la "inteligencia" para el razonamiento físico?

PhyX: Does Your Model Have the "Wits" for Physical Reasoning?

May 21, 2025
Autores: Hui Shen, Taiqiang Wu, Qi Han, Yunta Hsieh, Jizhou Wang, Yuyue Zhang, Yuxin Cheng, Zijian Hao, Yuansheng Ni, Xin Wang, Zhongwei Wan, Kai Zhang, Wendong Xu, Jing Xiong, Ping Luo, Wenhu Chen, Chaofan Tao, Zhuoqing Mao, Ngai Wong
cs.AI

Resumen

Los puntos de referencia existentes no logran capturar un aspecto crucial de la inteligencia: el razonamiento físico, la capacidad integrada de combinar conocimiento del dominio, razonamiento simbólico y comprensión de las limitaciones del mundo real. Para abordar esta brecha, presentamos PhyX: el primer punto de referencia a gran escala diseñado para evaluar la capacidad de los modelos para el razonamiento basado en la física en escenarios visuales. PhyX incluye 3K preguntas multimodales meticulosamente curadas que abarcan 6 tipos de razonamiento en 25 subdominios y 6 dominios principales de la física: termodinámica, electromagnetismo, mecánica, física moderna, óptica y ondas y acústica. En nuestra evaluación exhaustiva, incluso los modelos más avanzados presentan dificultades significativas con el razonamiento físico. GPT-4o, Claude3.7-Sonnet y GPT-o4-mini logran solo un 32.5\%, 42.2\% y 45.8\% de precisión, respectivamente, con brechas de rendimiento que superan el 29\% en comparación con expertos humanos. Nuestro análisis expone limitaciones críticas en los modelos actuales: dependencia excesiva de conocimiento disciplinario memorizado, excesiva dependencia de formulaciones matemáticas y coincidencia superficial de patrones visuales en lugar de una comprensión física genuina. Proporcionamos un análisis en profundidad a través de estadísticas detalladas, estudios de caso exhaustivos y múltiples paradigmas de evaluación para examinar minuciosamente las capacidades de razonamiento físico. Para garantizar la reproducibilidad, implementamos un protocolo de evaluación compatible basado en herramientas ampliamente utilizadas como VLMEvalKit, permitiendo una evaluación con un solo clic.
English
Existing benchmarks fail to capture a crucial aspect of intelligence: physical reasoning, the integrated ability to combine domain knowledge, symbolic reasoning, and understanding of real-world constraints. To address this gap, we introduce PhyX: the first large-scale benchmark designed to assess models capacity for physics-grounded reasoning in visual scenarios. PhyX includes 3K meticulously curated multimodal questions spanning 6 reasoning types across 25 sub-domains and 6 core physics domains: thermodynamics, electromagnetism, mechanics, modern physics, optics, and wave\&acoustics. In our comprehensive evaluation, even state-of-the-art models struggle significantly with physical reasoning. GPT-4o, Claude3.7-Sonnet, and GPT-o4-mini achieve only 32.5\%, 42.2\%, and 45.8\% accuracy respectively-performance gaps exceeding 29\% compared to human experts. Our analysis exposes critical limitations in current models: over-reliance on memorized disciplinary knowledge, excessive dependence on mathematical formulations, and surface-level visual pattern matching rather than genuine physical understanding. We provide in-depth analysis through fine-grained statistics, detailed case studies, and multiple evaluation paradigms to thoroughly examine physical reasoning capabilities. To ensure reproducibility, we implement a compatible evaluation protocol based on widely-used toolkits such as VLMEvalKit, enabling one-click evaluation.

Summary

AI-Generated Summary

PDF474May 26, 2025