SeePhys: Помогает ли зрение мышлению? — Бенчмаркинг физического мышления на основе визуальных данных
SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning
May 25, 2025
Авторы: Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang
cs.AI
Аннотация
Мы представляем SeePhys, крупномасштабный мультимодальный бенчмарк для проверки способности языковых моделей к рассуждениям на основе физических вопросов, охватывающих уровень от средней школы до квалификационных экзаменов PhD. Бенчмарк охватывает 7 фундаментальных областей физики и включает 21 категорию высоко гетерогенных диаграмм. В отличие от предыдущих работ, где визуальные элементы в основном выполняли вспомогательную функцию, наш бенчмарк содержит значительную долю задач (75%), для решения которых критически важно извлечение визуальной информации. В ходе масштабной оценки мы обнаружили, что даже самые передовые модели визуального рассуждения (например, Gemini-2.5-pro и o4-mini) демонстрируют точность ниже 60% на нашем бенчмарке. Эти результаты выявляют фундаментальные проблемы в текущих возможностях крупных языковых моделей в области визуального понимания, особенно в: (i) установлении строгой связи между интерпретацией диаграмм и физическими рассуждениями, и (ii) преодолении их устойчивой зависимости от текстовых подсказок как когнитивных сокращений.
English
We present SeePhys, a large-scale multimodal benchmark for LLM reasoning
grounded in physics questions ranging from middle school to PhD qualifying
exams. The benchmark covers 7 fundamental domains spanning the physics
discipline, incorporating 21 categories of highly heterogeneous diagrams. In
contrast to prior works where visual elements mainly serve auxiliary purposes,
our benchmark features a substantial proportion of vision-essential problems
(75\%) that mandate visual information extraction for correct solutions.
Through extensive evaluation, we observe that even the most advanced visual
reasoning models (e.g., Gemini-2.5-pro and o4-mini) achieve sub-60\% accuracy
on our benchmark. These results reveal fundamental challenges in current large
language models' visual understanding capabilities, particularly in: (i)
establishing rigorous coupling between diagram interpretation and physics
reasoning, and (ii) overcoming their persistent reliance on textual cues as
cognitive shortcuts.Summary
AI-Generated Summary