ChatPaper.aiChatPaper

SeePhys: Hilft Sehen beim Denken? – Benchmarking visuell basierter physikalischer Schlussfolgerungen

SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning

May 25, 2025
Autoren: Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
cs.AI

Zusammenfassung

Wir präsentieren SeePhys, einen groß angelegten multimodalen Benchmark für das physikalische Denken von LLMs, der Fragen von der Mittelstufe bis zu PhD-Qualifikationsprüfungen abdeckt. Der Benchmark umfasst 7 grundlegende Domänen der Physik und integriert 21 Kategorien hochgradig heterogener Diagramme. Im Gegensatz zu früheren Arbeiten, in denen visuelle Elemente hauptsächlich unterstützende Funktionen erfüllten, zeichnet sich unser Benchmark durch einen erheblichen Anteil visuell essenzieller Probleme (75 %) aus, die die Extraktion visueller Informationen für korrekte Lösungen erfordern. Durch umfangreiche Evaluierungen stellen wir fest, dass selbst die fortschrittlichsten visuellen Denkmodelle (z. B. Gemini-2.5-pro und o4-mini) auf unserem Benchmark eine Genauigkeit von unter 60 % erreichen. Diese Ergebnisse offenbaren grundlegende Herausforderungen im visuellen Verständnis aktueller großer Sprachmodelle, insbesondere in: (i) der Herstellung einer strengen Kopplung zwischen Diagramminterpretation und physikalischem Denken sowie (ii) der Überwindung ihrer anhaltenden Abhängigkeit von textuellen Hinweisen als kognitive Abkürzungen.
English
We present SeePhys, a large-scale multimodal benchmark for LLM reasoning grounded in physics questions ranging from middle school to PhD qualifying exams. The benchmark covers 7 fundamental domains spanning the physics discipline, incorporating 21 categories of highly heterogeneous diagrams. In contrast to prior works where visual elements mainly serve auxiliary purposes, our benchmark features a substantial proportion of vision-essential problems (75\%) that mandate visual information extraction for correct solutions. Through extensive evaluation, we observe that even the most advanced visual reasoning models (e.g., Gemini-2.5-pro and o4-mini) achieve sub-60\% accuracy on our benchmark. These results reveal fundamental challenges in current large language models' visual understanding capabilities, particularly in: (i) establishing rigorous coupling between diagram interpretation and physics reasoning, and (ii) overcoming their persistent reliance on textual cues as cognitive shortcuts.

Summary

AI-Generated Summary

PDF83May 28, 2025