Interpretação do Raciocínio Físico e Taxonomia de Desempenho em Modelos de Visão e Linguagem
Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models
September 10, 2025
Autores: Pranav Pawar, Kavish Shah, Akshat Bhalani, Komal Kasat, Dev Mittal, Hadi Gala, Deepali Patil, Nikita Raichada, Monali Deshmukh
cs.AI
Resumo
À medida que os Modelos de Visão e Linguagem (VLMs) se tornam mais sofisticados, sua capacidade de realizar raciocínio está recebendo uma supervisão cada vez maior. Embora se destaquem em muitas tarefas, sua compreensão de princípios científicos fundamentais, como física, permanece uma fronteira pouco explorada. Para refletir os avanços nessas capacidades, introduzimos uma estrutura nova e acessível projetada para avaliar rigorosamente os VLMs em sua compreensão da física 2D. Nossa estrutura apresenta um gerador de cenários pragmático que cria um conjunto diversificado de mais de 400 problemas em quatro domínios principais: Movimento de Projéteis, Dinâmica de Colisões, Mecânica e Dinâmica de Fluidos. Por meio de uma avaliação abrangente de quatro VLMs de última geração, demonstramos uma forte correlação entre a escala do modelo e a capacidade de raciocínio, com nosso modelo de melhor desempenho, Qwen2.5-VL-7B, alcançando uma pontuação geral de 0,815. Descobrimos que, embora os modelos se destaquem em problemas formulados, eles lutam significativamente com domínios que exigem raciocínio espacial abstrato. Ao projetar essa estrutura, nosso objetivo é democratizar o estudo do raciocínio científico em VLMs e promover insights mais profundos sobre suas capacidades e limitações.
English
As Vision-Language Models (VLMs) grow in sophistication, their ability to
perform reasoning is coming under increasing supervision. While they excel at
many tasks, their grasp of fundamental scientific principles, such as physics,
remains an underexplored frontier. To reflect the advancements in these
capabilities, we introduce a novel and accessible framework designed to
rigorously evaluate VLMs on their understanding of 2D physics. Our framework
features a pragmatic scenario generator that creates a diverse testbed of over
400 problems across four core domains: Projectile Motion, Collision Dynamics,
Mechanics, and Fluid Dynamics. Through comprehensive evaluation of four
state-of-the-art VLMs, we demonstrate a strong correlation between model scale
and reasoning ability, with our top-performing model, Qwen2.5-VL-7B, achieving
an overall score of 0.815. We find that while models excel at formulaic
problems, they struggle significantly with domains requiring abstract spatial
reasoning. By designing this framework, we aim to democratize the study of
scientific reasoning in VLMs and foster deeper insights into their capabilities
and limitations.