ChatPaper.aiChatPaper

SeePhys : La vision aide-t-elle la réflexion ? -- Évaluation du raisonnement physique basé sur la vision

SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning

May 25, 2025
Auteurs: Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
cs.AI

Résumé

Nous présentons SeePhys, un benchmark multimodal à grande échelle pour le raisonnement des LLM ancré dans des questions de physique allant du collège aux examens de qualification doctorale. Le benchmark couvre 7 domaines fondamentaux de la discipline physique, intégrant 21 catégories de diagrammes hautement hétérogènes. Contrairement aux travaux antérieurs où les éléments visuels servent principalement de support, notre benchmark comporte une proportion substantielle de problèmes essentiellement visuels (75\%) qui nécessitent l'extraction d'informations visuelles pour obtenir des solutions correctes. À travers une évaluation approfondie, nous observons que même les modèles de raisonnement visuel les plus avancés (par exemple, Gemini-2.5-pro et o4-mini) n'atteignent qu'une précision inférieure à 60\% sur notre benchmark. Ces résultats révèlent des défis fondamentaux dans les capacités de compréhension visuelle des grands modèles de langage actuels, notamment en ce qui concerne : (i) l'établissement d'un couplage rigoureux entre l'interprétation des diagrammes et le raisonnement physique, et (ii) la surmonte de leur dépendance persistante aux indices textuels comme raccourcis cognitifs.
English
We present SeePhys, a large-scale multimodal benchmark for LLM reasoning grounded in physics questions ranging from middle school to PhD qualifying exams. The benchmark covers 7 fundamental domains spanning the physics discipline, incorporating 21 categories of highly heterogeneous diagrams. In contrast to prior works where visual elements mainly serve auxiliary purposes, our benchmark features a substantial proportion of vision-essential problems (75\%) that mandate visual information extraction for correct solutions. Through extensive evaluation, we observe that even the most advanced visual reasoning models (e.g., Gemini-2.5-pro and o4-mini) achieve sub-60\% accuracy on our benchmark. These results reveal fundamental challenges in current large language models' visual understanding capabilities, particularly in: (i) establishing rigorous coupling between diagram interpretation and physics reasoning, and (ii) overcoming their persistent reliance on textual cues as cognitive shortcuts.

Summary

AI-Generated Summary

PDF83May 28, 2025