QuantiPhy: 視覚言語モデルの物理推論能力を評価する定量的ベンチマーク
QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models
December 22, 2025
著者: Li Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli
cs.AI
要旨
物理世界の理解は汎用AIエージェントにとって不可欠である。しかし、最先端の視覚認識モデル(大規模VLMなど)が物理的特性を定量的に推論できるかどうかは未だ明らかでない。既存の評価は主にVQAベースで定性的なものであり、これらのモデルが動画観察から移動物体の運動学的量を推論できるかについての知見は限られている。この問題に対処するため、VLMの物理推論能力を定量的に測定する初のベンチマーク「QuantiPhy」を提案する。3.3K以上の動画-テキストインスタンスと数値的な正解データから構成されるQuantiPhyは、特定のタイムスタンプにおける物体のサイズ、速度、加速度の推定において、これらの特性のいずれかを入力事前情報として用いたときのVLMの性能を評価する。本ベンチマークはプロンプトと採点を標準化し、数値的精度を評価することで、モデル間の公平な比較を可能にする。最先端VLMを用いた実験により、それらの定性的な尤もらしさと実際の数値的正しさの間に一貫した隔たりがあることが明らかになった。さらに、背景ノイズ、反事実的事前情報、戦略的プロンプトといった主要因に関する詳細分析を行い、最先端VLMが運動学的特性を定量的に推論する際、提供された視覚・テキスト入力を忠実に参照するよりも、事前学習された世界知識に強く依存していることを見出した。QuantiPhyは、VLMを単なる言葉上の尤もらしさを超えて、数値的に根拠ある物理理解へと進化させるための初の厳密かつ拡張可能なテストベッドを提供する。
English
Understanding the physical world is essential for generalist AI agents. However, it remains unclear whether state-of-the-art vision perception models (e.g., large VLMs) can reason physical properties quantitatively. Existing evaluations are predominantly VQA-based and qualitative, offering limited insight into whether these models can infer the kinematic quantities of moving objects from video observations. To address this, we present QuantiPhy, the first benchmark designed to quantitatively measure a VLM's physical reasoning ability. Comprising more than 3.3K video-text instances with numerical ground truth, QuantiPhy evaluates a VLM's performance on estimating an object's size, velocity, and acceleration at a given timestamp, using one of these properties as an input prior. The benchmark standardizes prompts and scoring to assess numerical accuracy, enabling fair comparisons across models. Our experiments on state-of-the-art VLMs reveal a consistent gap between their qualitative plausibility and actual numerical correctness. We further provide an in-depth analysis of key factors like background noise, counterfactual priors, and strategic prompting and find that state-of-the-art VLMs lean heavily on pre-trained world knowledge rather than faithfully using the provided visual and textual inputs as references when reasoning kinematic properties quantitatively. QuantiPhy offers the first rigorous, scalable testbed to move VLMs beyond mere verbal plausibility toward a numerically grounded physical understanding.