ChatPaper.aiChatPaper

Razonamiento físico interpretable y taxonomía de desempeño en modelos de visión y lenguaje

Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models

September 10, 2025
Autores: Pranav Pawar, Kavish Shah, Akshat Bhalani, Komal Kasat, Dev Mittal, Hadi Gala, Deepali Patil, Nikita Raichada, Monali Deshmukh
cs.AI

Resumen

A medida que los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) aumentan en sofisticación, su capacidad para realizar razonamientos está siendo sometida a una supervisión cada vez mayor. Aunque destacan en muchas tareas, su comprensión de principios científicos fundamentales, como la física, sigue siendo una frontera poco explorada. Para reflejar los avances en estas capacidades, presentamos un marco novedoso y accesible diseñado para evaluar rigurosamente la comprensión de los VLMs sobre física en 2D. Nuestro marco incluye un generador de escenarios pragmático que crea un banco de pruebas diverso con más de 400 problemas en cuatro dominios principales: Movimiento de Proyectiles, Dinámica de Colisiones, Mecánica y Dinámica de Fluidos. Mediante una evaluación exhaustiva de cuatro VLMs de última generación, demostramos una fuerte correlación entre la escala del modelo y su capacidad de razonamiento, con nuestro modelo de mayor rendimiento, Qwen2.5-VL-7B, alcanzando una puntuación global de 0.815. Encontramos que, aunque los modelos destacan en problemas formulísticos, tienen dificultades significativas en dominios que requieren razonamiento espacial abstracto. Al diseñar este marco, nuestro objetivo es democratizar el estudio del razonamiento científico en los VLMs y fomentar una comprensión más profunda de sus capacidades y limitaciones.
English
As Vision-Language Models (VLMs) grow in sophistication, their ability to perform reasoning is coming under increasing supervision. While they excel at many tasks, their grasp of fundamental scientific principles, such as physics, remains an underexplored frontier. To reflect the advancements in these capabilities, we introduce a novel and accessible framework designed to rigorously evaluate VLMs on their understanding of 2D physics. Our framework features a pragmatic scenario generator that creates a diverse testbed of over 400 problems across four core domains: Projectile Motion, Collision Dynamics, Mechanics, and Fluid Dynamics. Through comprehensive evaluation of four state-of-the-art VLMs, we demonstrate a strong correlation between model scale and reasoning ability, with our top-performing model, Qwen2.5-VL-7B, achieving an overall score of 0.815. We find that while models excel at formulaic problems, they struggle significantly with domains requiring abstract spatial reasoning. By designing this framework, we aim to democratize the study of scientific reasoning in VLMs and foster deeper insights into their capabilities and limitations.
PDF214September 16, 2025