시각-언어 모델에서의 해석 가능한 물리적 추론 및 성능 분류 체계
Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models
September 10, 2025
저자: Pranav Pawar, Kavish Shah, Akshat Bhalani, Komal Kasat, Dev Mittal, Hadi Gala, Deepali Patil, Nikita Raichada, Monali Deshmukh
cs.AI
초록
비전-언어 모델(VLMs)의 정교함이 증가함에 따라, 이들의 추론 능력에 대한 관심도 높아지고 있다. 이러한 모델들은 다양한 작업에서 뛰어난 성능을 보이지만, 물리학과 같은 기본적인 과학 원리에 대한 이해는 아직 충분히 탐구되지 않은 분야로 남아 있다. 이러한 능력의 발전을 반영하기 위해, 우리는 2D 물리학에 대한 VLMs의 이해를 엄격하게 평가하기 위한 새로운 접근 가능한 프레임워크를 소개한다. 우리의 프레임워크는 실용적인 시나리오 생성기를 포함하며, 이는 투사체 운동, 충돌 역학, 역학, 유체 역학이라는 네 가지 핵심 영역에 걸쳐 400개 이상의 다양한 문제를 생성한다. 네 가지 최첨단 VLMs에 대한 포괄적인 평가를 통해, 모델 규모와 추론 능력 사이의 강한 상관관계를 입증하였으며, 최고 성능을 보인 Qwen2.5-VL-7B 모델은 0.815의 종합 점수를 달성했다. 우리는 모델들이 공식화된 문제에서는 뛰어난 성능을 보이지만, 추상적인 공간 추론이 필요한 영역에서는 상당히 어려움을 겪는다는 것을 발견했다. 이 프레임워크를 설계함으로써, 우리는 VLMs의 과학적 추론 연구를 보다 대중화하고, 그들의 능력과 한계에 대한 더 깊은 통찰을 촉진하고자 한다.
English
As Vision-Language Models (VLMs) grow in sophistication, their ability to
perform reasoning is coming under increasing supervision. While they excel at
many tasks, their grasp of fundamental scientific principles, such as physics,
remains an underexplored frontier. To reflect the advancements in these
capabilities, we introduce a novel and accessible framework designed to
rigorously evaluate VLMs on their understanding of 2D physics. Our framework
features a pragmatic scenario generator that creates a diverse testbed of over
400 problems across four core domains: Projectile Motion, Collision Dynamics,
Mechanics, and Fluid Dynamics. Through comprehensive evaluation of four
state-of-the-art VLMs, we demonstrate a strong correlation between model scale
and reasoning ability, with our top-performing model, Qwen2.5-VL-7B, achieving
an overall score of 0.815. We find that while models excel at formulaic
problems, they struggle significantly with domains requiring abstract spatial
reasoning. By designing this framework, we aim to democratize the study of
scientific reasoning in VLMs and foster deeper insights into their capabilities
and limitations.