ChatPaper.aiChatPaper

QuantiPhy: un benchmark quantitativo per valutare le capacità di ragionamento fisico dei modelli visione-linguaggio

QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

December 22, 2025
Autori: Li Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli
cs.AI

Abstract

Comprendere il mondo fisico è essenziale per gli agenti di IA generalisti. Tuttavia, rimane poco chiaro se i modelli di percezione visiva all'avanguardia (ad esempio, i grandi VLM) siano in grado di ragionare sulle proprietà fisiche in modo quantitativo. Le valutazioni esistenti sono prevalentemente basate su VQA e qualitative, offrendo una comprensione limitata sulla capacità di questi modelli di inferire quantità cinematiche di oggetti in movimento da osservazioni video. Per affrontare questa lacuna, presentiamo QuantiPhy, il primo benchmark progettato per misurare quantitativamente l'abilità di ragionamento fisico di un VLM. Composto da oltre 3.3K istanze video-testo con verità numerica di riferimento (ground truth), QuantiPhy valuta le prestazioni di un VLM nella stima delle dimensioni, velocità e accelerazione di un oggetto in un dato istante temporale, utilizzando una di queste proprietà come informazione a priori in input. Il benchmark standardizza i prompt e i criteri di punteggio per valutare l'accuratezza numerica, consentendo confronti equi tra i modelli. I nostri esperimenti su VLM all'avanguardia rivelano un divario consistente tra la loro plausibilità qualitativa e l'effettiva correttezza numerica. Forniamo inoltre un'analisi approfondita di fattori chiave come il rumore di fondo, le informazioni a priori controfattuali e il prompting strategico, e scopriamo che i VLM all'avanguardia si affidano pesantemente alla conoscenza del mondo pre-appresa piuttosto che utilizzare fedelmente gli input visivi e testuali forniti come riferimento quando ragionano quantitativamente sulle proprietà cinematiche. QuantiPhy offre il primo banco di prova rigoroso e scalabile per spingere i VLM oltre la mera plausibilità verbale verso una comprensione fisica numericamente fondata.
English
Understanding the physical world is essential for generalist AI agents. However, it remains unclear whether state-of-the-art vision perception models (e.g., large VLMs) can reason physical properties quantitatively. Existing evaluations are predominantly VQA-based and qualitative, offering limited insight into whether these models can infer the kinematic quantities of moving objects from video observations. To address this, we present QuantiPhy, the first benchmark designed to quantitatively measure a VLM's physical reasoning ability. Comprising more than 3.3K video-text instances with numerical ground truth, QuantiPhy evaluates a VLM's performance on estimating an object's size, velocity, and acceleration at a given timestamp, using one of these properties as an input prior. The benchmark standardizes prompts and scoring to assess numerical accuracy, enabling fair comparisons across models. Our experiments on state-of-the-art VLMs reveal a consistent gap between their qualitative plausibility and actual numerical correctness. We further provide an in-depth analysis of key factors like background noise, counterfactual priors, and strategic prompting and find that state-of-the-art VLMs lean heavily on pre-trained world knowledge rather than faithfully using the provided visual and textual inputs as references when reasoning kinematic properties quantitatively. QuantiPhy offers the first rigorous, scalable testbed to move VLMs beyond mere verbal plausibility toward a numerically grounded physical understanding.
PDF21December 25, 2025