Interpreteerbare Fysica-redenering en Prestatie-taxonomie in Visie-Taalmodellen

Samenvatting

Naarmate Vision-Language Models (VLMs) steeds geavanceerder worden, staat hun vermogen om redeneringen uit te voeren onder toenemend toezicht. Hoewel ze uitblinken in veel taken, blijft hun begrip van fundamentele wetenschappelijke principes, zoals natuurkunde, een onderbelicht gebied. Om de vooruitgang in deze capaciteiten te weerspiegelen, introduceren we een nieuw en toegankelijk framework dat is ontworpen om VLMs rigoureus te evalueren op hun begrip van 2D-natuurkunde. Ons framework beschikt over een pragmatische scenariogenerator die een diverse testomgeving creëert met meer dan 400 problemen verdeeld over vier kerngebieden: Projectielbeweging, Botsingsdynamica, Mechanica en Vloeistofdynamica. Door een uitgebreide evaluatie van vier state-of-the-art VLMs, tonen we een sterke correlatie aan tussen de schaal van het model en het redeneervermogen, waarbij ons best presterende model, Qwen2.5-VL-7B, een totale score van 0,815 behaalt. We constateren dat modellen weliswaar uitblinken in formulegerichte problemen, maar aanzienlijk moeite hebben met domeinen die abstract ruimtelijk redeneren vereisen. Door dit framework te ontwerpen, streven we ernaar om de studie van wetenschappelijk redeneren in VLMs te democratiseren en diepere inzichten te bevorderen in hun mogelijkheden en beperkingen.

English

As Vision-Language Models (VLMs) grow in sophistication, their ability to perform reasoning is coming under increasing supervision. While they excel at many tasks, their grasp of fundamental scientific principles, such as physics, remains an underexplored frontier. To reflect the advancements in these capabilities, we introduce a novel and accessible framework designed to rigorously evaluate VLMs on their understanding of 2D physics. Our framework features a pragmatic scenario generator that creates a diverse testbed of over 400 problems across four core domains: Projectile Motion, Collision Dynamics, Mechanics, and Fluid Dynamics. Through comprehensive evaluation of four state-of-the-art VLMs, we demonstrate a strong correlation between model scale and reasoning ability, with our top-performing model, Qwen2.5-VL-7B, achieving an overall score of 0.815. We find that while models excel at formulaic problems, they struggle significantly with domains requiring abstract spatial reasoning. By designing this framework, we aim to democratize the study of scientific reasoning in VLMs and foster deeper insights into their capabilities and limitations.

Interpreteerbare Fysica-redenering en Prestatie-taxonomie in Visie-Taalmodellen

Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models

Samenvatting

Support