ChatPaper.aiChatPaper

SeePhys: A Visão Ajuda no Raciocínio? -- Avaliação do Raciocínio Físico Baseado em Visão

SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning

May 25, 2025
Autores: Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
cs.AI

Resumo

Apresentamos o SeePhys, um benchmark multimodal em larga escala para raciocínio de LLMs (Large Language Models) fundamentado em questões de física que variam desde o ensino fundamental até exames de qualificação de doutorado. O benchmark abrange 7 domínios fundamentais que percorrem a disciplina de física, incorporando 21 categorias de diagramas altamente heterogêneos. Em contraste com trabalhos anteriores, nos quais os elementos visuais serviam principalmente a propósitos auxiliares, nosso benchmark apresenta uma proporção significativa de problemas essencialmente visuais (75\%) que exigem a extração de informações visuais para soluções corretas. Por meio de uma avaliação extensiva, observamos que mesmo os modelos de raciocínio visual mais avançados (por exemplo, Gemini-2.5-pro e o4-mini) atingem uma precisão inferior a 60\% em nosso benchmark. Esses resultados revelam desafios fundamentais nas capacidades atuais de compreensão visual dos grandes modelos de linguagem, particularmente em: (i) estabelecer um acoplamento rigoroso entre a interpretação de diagramas e o raciocínio físico, e (ii) superar sua dependência persistente em pistas textuais como atalhos cognitivos.
English
We present SeePhys, a large-scale multimodal benchmark for LLM reasoning grounded in physics questions ranging from middle school to PhD qualifying exams. The benchmark covers 7 fundamental domains spanning the physics discipline, incorporating 21 categories of highly heterogeneous diagrams. In contrast to prior works where visual elements mainly serve auxiliary purposes, our benchmark features a substantial proportion of vision-essential problems (75\%) that mandate visual information extraction for correct solutions. Through extensive evaluation, we observe that even the most advanced visual reasoning models (e.g., Gemini-2.5-pro and o4-mini) achieve sub-60\% accuracy on our benchmark. These results reveal fundamental challenges in current large language models' visual understanding capabilities, particularly in: (i) establishing rigorous coupling between diagram interpretation and physics reasoning, and (ii) overcoming their persistent reliance on textual cues as cognitive shortcuts.
PDF73December 4, 2025