Interpreteerbare Fysica-redenering en Prestatie-taxonomie in Visie-Taalmodellen
Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models
September 10, 2025
Auteurs: Pranav Pawar, Kavish Shah, Akshat Bhalani, Komal Kasat, Dev Mittal, Hadi Gala, Deepali Patil, Nikita Raichada, Monali Deshmukh
cs.AI
Samenvatting
Naarmate Vision-Language Models (VLMs) steeds geavanceerder worden, staat hun vermogen om redeneringen uit te voeren onder toenemend toezicht. Hoewel ze uitblinken in veel taken, blijft hun begrip van fundamentele wetenschappelijke principes, zoals natuurkunde, een onderbelicht gebied. Om de vooruitgang in deze capaciteiten te weerspiegelen, introduceren we een nieuw en toegankelijk framework dat is ontworpen om VLMs rigoureus te evalueren op hun begrip van 2D-natuurkunde. Ons framework beschikt over een pragmatische scenariogenerator die een diverse testomgeving creëert met meer dan 400 problemen verdeeld over vier kerngebieden: Projectielbeweging, Botsingsdynamica, Mechanica en Vloeistofdynamica. Door een uitgebreide evaluatie van vier state-of-the-art VLMs, tonen we een sterke correlatie aan tussen de schaal van het model en het redeneervermogen, waarbij ons best presterende model, Qwen2.5-VL-7B, een totale score van 0,815 behaalt. We constateren dat modellen weliswaar uitblinken in formulegerichte problemen, maar aanzienlijk moeite hebben met domeinen die abstract ruimtelijk redeneren vereisen. Door dit framework te ontwerpen, streven we ernaar om de studie van wetenschappelijk redeneren in VLMs te democratiseren en diepere inzichten te bevorderen in hun mogelijkheden en beperkingen.
English
As Vision-Language Models (VLMs) grow in sophistication, their ability to
perform reasoning is coming under increasing supervision. While they excel at
many tasks, their grasp of fundamental scientific principles, such as physics,
remains an underexplored frontier. To reflect the advancements in these
capabilities, we introduce a novel and accessible framework designed to
rigorously evaluate VLMs on their understanding of 2D physics. Our framework
features a pragmatic scenario generator that creates a diverse testbed of over
400 problems across four core domains: Projectile Motion, Collision Dynamics,
Mechanics, and Fluid Dynamics. Through comprehensive evaluation of four
state-of-the-art VLMs, we demonstrate a strong correlation between model scale
and reasoning ability, with our top-performing model, Qwen2.5-VL-7B, achieving
an overall score of 0.815. We find that while models excel at formulaic
problems, they struggle significantly with domains requiring abstract spatial
reasoning. By designing this framework, we aim to democratize the study of
scientific reasoning in VLMs and foster deeper insights into their capabilities
and limitations.