Интерпретируемое физическое рассуждение и таксономия производительности в моделях "визуальный язык"
Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models
September 10, 2025
Авторы: Pranav Pawar, Kavish Shah, Akshat Bhalani, Komal Kasat, Dev Mittal, Hadi Gala, Deepali Patil, Nikita Raichada, Monali Deshmukh
cs.AI
Аннотация
По мере того как модели обработки зрения и языка (Vision-Language Models, VLMs) становятся все более сложными, их способность к выполнению логических рассуждений подвергается все более пристальному вниманию. Хотя они демонстрируют высокие результаты во многих задачах, их понимание фундаментальных научных принципов, таких как физика, остается малоизученной областью. Чтобы отразить прогресс в этих возможностях, мы представляем новый и доступный фреймворк, предназначенный для строгой оценки понимания VLMs двумерной физики. Наш фреймворк включает в себя прагматичный генератор сценариев, который создает разнообразный набор из более чем 400 задач в четырех ключевых областях: движение снарядов, динамика столкновений, механика и гидродинамика. В ходе всесторонней оценки четырех современных VLMs мы демонстрируем сильную корреляцию между масштабом модели и способностью к рассуждениям, при этом наша лучшая модель, Qwen2.5-VL-7B, достигает общего балла 0,815. Мы обнаружили, что хотя модели хорошо справляются с формальными задачами, они испытывают значительные трудности в областях, требующих абстрактного пространственного мышления. Разрабатывая этот фреймворк, мы стремимся сделать изучение научных рассуждений в VLMs более доступным и способствовать более глубокому пониманию их возможностей и ограничений.
English
As Vision-Language Models (VLMs) grow in sophistication, their ability to
perform reasoning is coming under increasing supervision. While they excel at
many tasks, their grasp of fundamental scientific principles, such as physics,
remains an underexplored frontier. To reflect the advancements in these
capabilities, we introduce a novel and accessible framework designed to
rigorously evaluate VLMs on their understanding of 2D physics. Our framework
features a pragmatic scenario generator that creates a diverse testbed of over
400 problems across four core domains: Projectile Motion, Collision Dynamics,
Mechanics, and Fluid Dynamics. Through comprehensive evaluation of four
state-of-the-art VLMs, we demonstrate a strong correlation between model scale
and reasoning ability, with our top-performing model, Qwen2.5-VL-7B, achieving
an overall score of 0.815. We find that while models excel at formulaic
problems, they struggle significantly with domains requiring abstract spatial
reasoning. By designing this framework, we aim to democratize the study of
scientific reasoning in VLMs and foster deeper insights into their capabilities
and limitations.