ChatPaper.aiChatPaper

SeePhys: La visione aiuta il ragionamento? -- Benchmark del ragionamento fisico basato sulla visione

SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning

May 25, 2025
Autori: Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
cs.AI

Abstract

Presentiamo SeePhys, un benchmark multimodale su larga scala per il ragionamento dei modelli linguistici di grandi dimensioni (LLM) basato su domande di fisica che spaziano dal livello di scuola media agli esami di qualifica per il dottorato. Il benchmark copre 7 domini fondamentali che abbracciano la disciplina della fisica, incorporando 21 categorie di diagrammi altamente eterogenei. A differenza dei lavori precedenti, in cui gli elementi visivi svolgono principalmente un ruolo ausiliario, il nostro benchmark presenta una proporzione significativa di problemi essenzialmente visivi (75%) che richiedono l'estrazione di informazioni visive per ottenere soluzioni corrette. Attraverso una valutazione approfondita, osserviamo che anche i modelli di ragionamento visivo più avanzati (ad esempio, Gemini-2.5-pro e o4-mini) raggiungono un'accuratezza inferiore al 60% sul nostro benchmark. Questi risultati rivelano sfide fondamentali nelle capacità attuali di comprensione visiva dei modelli linguistici di grandi dimensioni, in particolare: (i) nell'instaurare un accoppiamento rigoroso tra l'interpretazione dei diagrammi e il ragionamento fisico, e (ii) nel superare la loro persistente dipendenza da indizi testuali come scorciatoie cognitive.
English
We present SeePhys, a large-scale multimodal benchmark for LLM reasoning grounded in physics questions ranging from middle school to PhD qualifying exams. The benchmark covers 7 fundamental domains spanning the physics discipline, incorporating 21 categories of highly heterogeneous diagrams. In contrast to prior works where visual elements mainly serve auxiliary purposes, our benchmark features a substantial proportion of vision-essential problems (75\%) that mandate visual information extraction for correct solutions. Through extensive evaluation, we observe that even the most advanced visual reasoning models (e.g., Gemini-2.5-pro and o4-mini) achieve sub-60\% accuracy on our benchmark. These results reveal fundamental challenges in current large language models' visual understanding capabilities, particularly in: (i) establishing rigorous coupling between diagram interpretation and physics reasoning, and (ii) overcoming their persistent reliance on textual cues as cognitive shortcuts.
PDF83May 28, 2025