ChatPaper.aiChatPaper

QuantiPhy: Количественный тест для оценки способностей визуально-языковых моделей к физическим рассуждениям

QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

December 22, 2025
Авторы: Li Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli
cs.AI

Аннотация

Понимание физического мира является ключевым для универсальных агентов ИИ. Однако до сих пор неясно, способны ли современные модели визуального восприятия (например, большие мультимодальные языковые модели, VLMs) к количественному анализу физических свойств. Существующие оценки преимущественно основаны на вопросах и ответах по изображениям (VQA) и носят качественный характер, что даёт ограниченное представление о том, могут ли эти модели выводить кинематические величины движущихся объектов из видеонаблюдений. Чтобы решить эту проблему, мы представляем QuantiPhy — первый бенчмарк, разработанный для количественной оценки способности VLM к физическим рассуждениям. Состоящий из более чем 3,3 тыс. видеотекстовых примеров с числовыми эталонными значениями, QuantiPhy оценивает производительность VLM при определении размера, скорости и ускорения объекта в заданный момент времени, используя одно из этих свойств в качестве априорной информации. Бенчмарк стандартизирует формулировки запросов и систему оценивания для анализа числовой точности, обеспечивая справедливое сравнение моделей. Наши эксперименты с передовыми VLMs выявили устойчивый разрыв между их качественной правдоподобностью и фактической числовой корректностью. Мы также провели углубленный анализ ключевых факторов, таких как фоновый шум, контрафактические априорные данные и стратегическое составление запросов, и обнаружили, что современные VLMs в значительной степени опираются на предварительно полученные знания о мире, а не добросовестно используют предоставленные визуальные и текстовые данные в качестве ориентиров при количественном выводе кинематических свойств. QuantiPhy предлагает первую строгую и масштабируемую тестовую среду для перевода VLMs от простой вербальной правдоподобности к численно обоснованному физическому пониманию.
English
Understanding the physical world is essential for generalist AI agents. However, it remains unclear whether state-of-the-art vision perception models (e.g., large VLMs) can reason physical properties quantitatively. Existing evaluations are predominantly VQA-based and qualitative, offering limited insight into whether these models can infer the kinematic quantities of moving objects from video observations. To address this, we present QuantiPhy, the first benchmark designed to quantitatively measure a VLM's physical reasoning ability. Comprising more than 3.3K video-text instances with numerical ground truth, QuantiPhy evaluates a VLM's performance on estimating an object's size, velocity, and acceleration at a given timestamp, using one of these properties as an input prior. The benchmark standardizes prompts and scoring to assess numerical accuracy, enabling fair comparisons across models. Our experiments on state-of-the-art VLMs reveal a consistent gap between their qualitative plausibility and actual numerical correctness. We further provide an in-depth analysis of key factors like background noise, counterfactual priors, and strategic prompting and find that state-of-the-art VLMs lean heavily on pre-trained world knowledge rather than faithfully using the provided visual and textual inputs as references when reasoning kinematic properties quantitatively. QuantiPhy offers the first rigorous, scalable testbed to move VLMs beyond mere verbal plausibility toward a numerically grounded physical understanding.
PDF21December 25, 2025