ChatPaper.aiChatPaper

QuantiPhy: Een kwantitatieve benchmark voor de evaluatie van fysieke redeneervaardigheden van vision-language modellen

QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

December 22, 2025
Auteurs: Li Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli
cs.AI

Samenvatting

Het begrijpen van de fysieke wereld is essentieel voor algemene AI-agenten. Het blijft echter onduidelijk of state-of-the-art visuele perceptiemodellen (zoals grote VLMs) fysieke eigenschappen kwantitatief kunnen redeneren. Bestaande evaluaties zijn overwegend VQA-gebaseerd en kwalitatief van aard, wat beperkt inzicht biedt in of deze modellen kinematische grootheden van bewegende objecten uit video-observaties kunnen afleiden. Om dit aan te pakken, presenteren we QuantiPhy, de eerste benchmark die ontworpen is om het fysieke redeneervermogen van een VLM kwantitatief te meten. QuantiPhy, bestaande uit meer dan 3.3K video-tekst instanties met numerieke grondwaarden, evalueert de prestaties van een VLM bij het schatten van de grootte, snelheid en versnelling van een object op een bepaald tijdstip, waarbij één van deze eigenschappen als invoerprior wordt gebruikt. De benchmark standaardiseert prompts en scoring om numerieke nauwkeurigheid te beoordelen, waardoor eerlijke vergelijkingen tussen modellen mogelijk zijn. Onze experimenten met state-of-the-art VLMs tonen een consistente kloof aan tussen hun kwalitatieve geloofwaardigheid en daadwerkelijke numerieke correctheid. We bieden verder een diepgaande analyse van belangrijke factoren zoals achtergrondruis, contrafeitelijke priors en strategische prompting, en constateren dat state-of-the-art VLMs sterk leunen op vooraf getrainde wereldkennis in plaats van de verstrekte visuele en tekstuele invoer getrouw als referentie te gebruiken bij het kwantitatief redeneren over kinematische eigenschappen. QuantiPhy biedt de eerste rigoureuze, schaalbare testomgeving om VLMs verder te brengen dan louter verbale geloofwaardigheid, richting een numeriek onderbouwd fysiek begrip.
English
Understanding the physical world is essential for generalist AI agents. However, it remains unclear whether state-of-the-art vision perception models (e.g., large VLMs) can reason physical properties quantitatively. Existing evaluations are predominantly VQA-based and qualitative, offering limited insight into whether these models can infer the kinematic quantities of moving objects from video observations. To address this, we present QuantiPhy, the first benchmark designed to quantitatively measure a VLM's physical reasoning ability. Comprising more than 3.3K video-text instances with numerical ground truth, QuantiPhy evaluates a VLM's performance on estimating an object's size, velocity, and acceleration at a given timestamp, using one of these properties as an input prior. The benchmark standardizes prompts and scoring to assess numerical accuracy, enabling fair comparisons across models. Our experiments on state-of-the-art VLMs reveal a consistent gap between their qualitative plausibility and actual numerical correctness. We further provide an in-depth analysis of key factors like background noise, counterfactual priors, and strategic prompting and find that state-of-the-art VLMs lean heavily on pre-trained world knowledge rather than faithfully using the provided visual and textual inputs as references when reasoning kinematic properties quantitatively. QuantiPhy offers the first rigorous, scalable testbed to move VLMs beyond mere verbal plausibility toward a numerically grounded physical understanding.
PDF21December 25, 2025