視覚言語モデルにおける解釈可能な物理推論と性能分類体系
Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models
September 10, 2025
著者: Pranav Pawar, Kavish Shah, Akshat Bhalani, Komal Kasat, Dev Mittal, Hadi Gala, Deepali Patil, Nikita Raichada, Monali Deshmukh
cs.AI
要旨
視覚言語モデル(VLM)の高度化に伴い、その推論能力に対する監視が強化されつつある。多くのタスクで優れた性能を発揮する一方で、物理学などの基本的な科学原理の理解は未開拓の領域である。これらの能力の進展を反映するため、我々は2D物理学の理解を厳密に評価するための新規でアクセスしやすいフレームワークを提案する。本フレームワークは、実践的なシナリオ生成器を特徴とし、投射運動、衝突力学、力学、流体力学の4つの主要領域にわたる400以上の多様な問題群を作成する。4つの最先端VLMを包括的に評価した結果、モデルの規模と推論能力の間に強い相関関係が確認され、最高性能を示したQwen2.5-VL-7Bモデルは0.815の総合スコアを達成した。モデルは定型的な問題では優れた性能を発揮する一方、抽象的な空間推論を必要とする領域では著しく苦戦することが明らかになった。本フレームワークを設計することで、VLMにおける科学的推論の研究を一般化し、その能力と限界に対するより深い洞察を促進することを目指す。
English
As Vision-Language Models (VLMs) grow in sophistication, their ability to
perform reasoning is coming under increasing supervision. While they excel at
many tasks, their grasp of fundamental scientific principles, such as physics,
remains an underexplored frontier. To reflect the advancements in these
capabilities, we introduce a novel and accessible framework designed to
rigorously evaluate VLMs on their understanding of 2D physics. Our framework
features a pragmatic scenario generator that creates a diverse testbed of over
400 problems across four core domains: Projectile Motion, Collision Dynamics,
Mechanics, and Fluid Dynamics. Through comprehensive evaluation of four
state-of-the-art VLMs, we demonstrate a strong correlation between model scale
and reasoning ability, with our top-performing model, Qwen2.5-VL-7B, achieving
an overall score of 0.815. We find that while models excel at formulaic
problems, they struggle significantly with domains requiring abstract spatial
reasoning. By designing this framework, we aim to democratize the study of
scientific reasoning in VLMs and foster deeper insights into their capabilities
and limitations.