ChatPaper.aiChatPaper

SeePhys: ¿Ayuda ver a pensar? -- Evaluación del razonamiento físico basado en visión

SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning

May 25, 2025
Autores: Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
cs.AI

Resumen

Presentamos SeePhys, un benchmark multimodal a gran escala para el razonamiento de LLMs basado en preguntas de física que abarcan desde nivel de secundaria hasta exámenes de calificación para doctorado. El benchmark cubre 7 dominios fundamentales que abarcan la disciplina de la física, incorporando 21 categorías de diagramas altamente heterogéneos. A diferencia de trabajos previos donde los elementos visuales cumplen principalmente un papel auxiliar, nuestro benchmark presenta una proporción significativa de problemas esencialmente visuales (75\%) que requieren la extracción de información visual para obtener soluciones correctas. A través de una evaluación exhaustiva, observamos que incluso los modelos de razonamiento visual más avanzados (por ejemplo, Gemini-2.5-pro y o4-mini) alcanzan una precisión inferior al 60\% en nuestro benchmark. Estos resultados revelan desafíos fundamentales en las capacidades actuales de comprensión visual de los modelos de lenguaje grandes, particularmente en: (i) establecer un acoplamiento riguroso entre la interpretación de diagramas y el razonamiento físico, y (ii) superar su dependencia persistente en pistas textuales como atajos cognitivos.
English
We present SeePhys, a large-scale multimodal benchmark for LLM reasoning grounded in physics questions ranging from middle school to PhD qualifying exams. The benchmark covers 7 fundamental domains spanning the physics discipline, incorporating 21 categories of highly heterogeneous diagrams. In contrast to prior works where visual elements mainly serve auxiliary purposes, our benchmark features a substantial proportion of vision-essential problems (75\%) that mandate visual information extraction for correct solutions. Through extensive evaluation, we observe that even the most advanced visual reasoning models (e.g., Gemini-2.5-pro and o4-mini) achieve sub-60\% accuracy on our benchmark. These results reveal fundamental challenges in current large language models' visual understanding capabilities, particularly in: (i) establishing rigorous coupling between diagram interpretation and physics reasoning, and (ii) overcoming their persistent reliance on textual cues as cognitive shortcuts.

Summary

AI-Generated Summary

PDF83May 28, 2025