SeePhys: ¿Ayuda ver a pensar? -- Evaluación del razonamiento físico basado en visión
SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning
May 25, 2025
Autores: Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
cs.AI
Resumen
Presentamos SeePhys, un benchmark multimodal a gran escala para el razonamiento de LLMs basado en preguntas de física que abarcan desde nivel de secundaria hasta exámenes de calificación para doctorado. El benchmark cubre 7 dominios fundamentales que abarcan la disciplina de la física, incorporando 21 categorías de diagramas altamente heterogéneos. A diferencia de trabajos previos donde los elementos visuales cumplen principalmente un papel auxiliar, nuestro benchmark presenta una proporción significativa de problemas esencialmente visuales (75\%) que requieren la extracción de información visual para obtener soluciones correctas. A través de una evaluación exhaustiva, observamos que incluso los modelos de razonamiento visual más avanzados (por ejemplo, Gemini-2.5-pro y o4-mini) alcanzan una precisión inferior al 60\% en nuestro benchmark. Estos resultados revelan desafíos fundamentales en las capacidades actuales de comprensión visual de los modelos de lenguaje grandes, particularmente en: (i) establecer un acoplamiento riguroso entre la interpretación de diagramas y el razonamiento físico, y (ii) superar su dependencia persistente en pistas textuales como atajos cognitivos.
English
We present SeePhys, a large-scale multimodal benchmark for LLM reasoning
grounded in physics questions ranging from middle school to PhD qualifying
exams. The benchmark covers 7 fundamental domains spanning the physics
discipline, incorporating 21 categories of highly heterogeneous diagrams. In
contrast to prior works where visual elements mainly serve auxiliary purposes,
our benchmark features a substantial proportion of vision-essential problems
(75\%) that mandate visual information extraction for correct solutions.
Through extensive evaluation, we observe that even the most advanced visual
reasoning models (e.g., Gemini-2.5-pro and o4-mini) achieve sub-60\% accuracy
on our benchmark. These results reveal fundamental challenges in current large
language models' visual understanding capabilities, particularly in: (i)
establishing rigorous coupling between diagram interpretation and physics
reasoning, and (ii) overcoming their persistent reliance on textual cues as
cognitive shortcuts.Summary
AI-Generated Summary