SeePhys: A Visão Ajuda no Raciocínio? -- Avaliação do Raciocínio Físico Baseado em Visão
SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning
May 25, 2025
Autores: Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
cs.AI
Resumo
Apresentamos o SeePhys, um benchmark multimodal em larga escala para raciocínio de LLMs (Large Language Models) fundamentado em questões de física que variam desde o ensino fundamental até exames de qualificação de doutorado. O benchmark abrange 7 domínios fundamentais que percorrem a disciplina de física, incorporando 21 categorias de diagramas altamente heterogêneos. Em contraste com trabalhos anteriores, nos quais os elementos visuais serviam principalmente a propósitos auxiliares, nosso benchmark apresenta uma proporção significativa de problemas essencialmente visuais (75\%) que exigem a extração de informações visuais para soluções corretas. Por meio de uma avaliação extensiva, observamos que mesmo os modelos de raciocínio visual mais avançados (por exemplo, Gemini-2.5-pro e o4-mini) atingem uma precisão inferior a 60\% em nosso benchmark. Esses resultados revelam desafios fundamentais nas capacidades atuais de compreensão visual dos grandes modelos de linguagem, particularmente em: (i) estabelecer um acoplamento rigoroso entre a interpretação de diagramas e o raciocínio físico, e (ii) superar sua dependência persistente em pistas textuais como atalhos cognitivos.
English
We present SeePhys, a large-scale multimodal benchmark for LLM reasoning
grounded in physics questions ranging from middle school to PhD qualifying
exams. The benchmark covers 7 fundamental domains spanning the physics
discipline, incorporating 21 categories of highly heterogeneous diagrams. In
contrast to prior works where visual elements mainly serve auxiliary purposes,
our benchmark features a substantial proportion of vision-essential problems
(75\%) that mandate visual information extraction for correct solutions.
Through extensive evaluation, we observe that even the most advanced visual
reasoning models (e.g., Gemini-2.5-pro and o4-mini) achieve sub-60\% accuracy
on our benchmark. These results reveal fundamental challenges in current large
language models' visual understanding capabilities, particularly in: (i)
establishing rigorous coupling between diagram interpretation and physics
reasoning, and (ii) overcoming their persistent reliance on textual cues as
cognitive shortcuts.