ChatPaper.aiChatPaper

SeePhys: 시각 정보가 사고를 돕는가? -- 시각 기반 물리 추론 벤치마킹

SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning

May 25, 2025
저자: Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
cs.AI

초록

우리는 중학교 수준부터 박사 자격시험까지의 물리학 문제에 기반한 대규모 멀티모달 LLM 추론 벤치마크인 SeePhys를 소개한다. 이 벤치마크는 물리학 분야를 아우르는 7개의 기본 도메인을 포함하며, 21개 범주의 매우 이질적인 다이어그램을 통합한다. 기존 연구에서 시각적 요소가 주로 보조적인 역할을 했던 것과 달리, 우리의 벤치마크는 시각 정보 추출이 필수적인 문제(75%)를 상당 비중으로 특징으로 한다. 광범위한 평가를 통해, 가장 진보된 시각 추론 모델들(예: Gemini-2.5-pro 및 o4-mini)조차도 우리 벤치마크에서 60% 미만의 정확도를 달성하는 것을 관찰했다. 이러한 결과는 현재의 대형 언어 모델들이 직면한 근본적인 도전을 드러내는데, 특히 (i) 다이어그램 해석과 물리학 추론 간의 엄격한 연계를 확립하는 것, 그리고 (ii) 텍스트 단서에 대한 지속적인 의존성을 인지적 단축키로 삼는 것을 극복하는 데 있어서 그러하다.
English
We present SeePhys, a large-scale multimodal benchmark for LLM reasoning grounded in physics questions ranging from middle school to PhD qualifying exams. The benchmark covers 7 fundamental domains spanning the physics discipline, incorporating 21 categories of highly heterogeneous diagrams. In contrast to prior works where visual elements mainly serve auxiliary purposes, our benchmark features a substantial proportion of vision-essential problems (75\%) that mandate visual information extraction for correct solutions. Through extensive evaluation, we observe that even the most advanced visual reasoning models (e.g., Gemini-2.5-pro and o4-mini) achieve sub-60\% accuracy on our benchmark. These results reveal fundamental challenges in current large language models' visual understanding capabilities, particularly in: (i) establishing rigorous coupling between diagram interpretation and physics reasoning, and (ii) overcoming their persistent reliance on textual cues as cognitive shortcuts.

Summary

AI-Generated Summary

PDF83May 28, 2025