SeePhys: Helpt zien bij denken? -- Benchmarken van visueel gebaseerd natuurkundig redeneren
SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning
May 25, 2025
Auteurs: Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
cs.AI
Samenvatting
We presenteren SeePhys, een grootschalige multimodale benchmark voor redeneren met grote taalmodellen, gebaseerd op natuurkundevragen variërend van middelbare school tot PhD-kwalificatie-examens. De benchmark beslaat 7 fundamentele domeinen binnen de natuurkundediscipline en omvat 21 categorieën van zeer heterogene diagrammen. In tegenstelling tot eerdere werken waarin visuele elementen voornamelijk een ondersteunende rol spelen, bevat onze benchmark een aanzienlijk aandeel visueel essentiële problemen (75\%) die het extraheren van visuele informatie vereisen voor correcte oplossingen. Uit uitgebreide evaluatie blijkt dat zelfs de meest geavanceerde visuele redeneermodellen (bijv. Gemini-2.5-pro en o4-mini) een nauwkeurigheid van minder dan 60\% behalen op onze benchmark. Deze resultaten onthullen fundamentele uitdagingen in het huidige visuele begrip van grote taalmodellen, met name op het gebied van: (i) het tot stand brengen van een rigoureuze koppeling tussen diagraminterpretatie en natuurkundig redeneren, en (ii) het overwinnen van hun hardnekkige afhankelijkheid van tekstuele aanwijzingen als cognitieve shortcuts.
English
We present SeePhys, a large-scale multimodal benchmark for LLM reasoning
grounded in physics questions ranging from middle school to PhD qualifying
exams. The benchmark covers 7 fundamental domains spanning the physics
discipline, incorporating 21 categories of highly heterogeneous diagrams. In
contrast to prior works where visual elements mainly serve auxiliary purposes,
our benchmark features a substantial proportion of vision-essential problems
(75\%) that mandate visual information extraction for correct solutions.
Through extensive evaluation, we observe that even the most advanced visual
reasoning models (e.g., Gemini-2.5-pro and o4-mini) achieve sub-60\% accuracy
on our benchmark. These results reveal fundamental challenges in current large
language models' visual understanding capabilities, particularly in: (i)
establishing rigorous coupling between diagram interpretation and physics
reasoning, and (ii) overcoming their persistent reliance on textual cues as
cognitive shortcuts.