Interpretierbare physikalische Argumentation und Leistungstaxonomie in Vision-Sprach-Modellen
Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models
September 10, 2025
papers.authors: Pranav Pawar, Kavish Shah, Akshat Bhalani, Komal Kasat, Dev Mittal, Hadi Gala, Deepali Patil, Nikita Raichada, Monali Deshmukh
cs.AI
papers.abstract
Mit zunehmender Komplexität von Vision-Language-Modellen (VLMs) wird ihre Fähigkeit zum logischen Denken immer stärker überwacht. Obwohl sie bei vielen Aufgaben hervorragende Leistungen erbringen, bleibt ihr Verständnis grundlegender wissenschaftlicher Prinzipien, wie beispielsweise der Physik, ein noch wenig erforschtes Gebiet. Um die Fortschritte in diesen Fähigkeiten abzubilden, stellen wir ein neuartiges und zugängliches Framework vor, das entwickelt wurde, um VLMs hinsichtlich ihres Verständnisses von 2D-Physik rigoros zu bewerten. Unser Framework umfasst einen pragmatischen Szenariengenerator, der eine vielfältige Testumgebung mit über 400 Problemen in vier Kernbereichen schafft: Projektilbewegung, Kollisionsdynamik, Mechanik und Strömungsdynamik. Durch eine umfassende Bewertung von vier state-of-the-art VLMs zeigen wir eine starke Korrelation zwischen der Modellgröße und der Fähigkeit zum logischen Denken, wobei unser bestes Modell, Qwen2.5-VL-7B, eine Gesamtpunktzahl von 0,815 erreicht. Wir stellen fest, dass Modelle zwar bei formelbasierten Problemen exzellent abschneiden, jedoch erhebliche Schwierigkeiten in Bereichen haben, die abstraktes räumliches Denken erfordern. Mit der Entwicklung dieses Frameworks möchten wir die Erforschung des wissenschaftlichen Denkens in VLMs demokratisieren und tiefere Einblicke in ihre Fähigkeiten und Grenzen fördern.
English
As Vision-Language Models (VLMs) grow in sophistication, their ability to
perform reasoning is coming under increasing supervision. While they excel at
many tasks, their grasp of fundamental scientific principles, such as physics,
remains an underexplored frontier. To reflect the advancements in these
capabilities, we introduce a novel and accessible framework designed to
rigorously evaluate VLMs on their understanding of 2D physics. Our framework
features a pragmatic scenario generator that creates a diverse testbed of over
400 problems across four core domains: Projectile Motion, Collision Dynamics,
Mechanics, and Fluid Dynamics. Through comprehensive evaluation of four
state-of-the-art VLMs, we demonstrate a strong correlation between model scale
and reasoning ability, with our top-performing model, Qwen2.5-VL-7B, achieving
an overall score of 0.815. We find that while models excel at formulaic
problems, they struggle significantly with domains requiring abstract spatial
reasoning. By designing this framework, we aim to democratize the study of
scientific reasoning in VLMs and foster deeper insights into their capabilities
and limitations.