ChatPaper.aiChatPaper

QuantiPhy : Un Benchmark Quantitatif Évaluant les Capacités de Raisonnement Physique des Modèles Vision-Langage

QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

December 22, 2025
papers.authors: Li Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli
cs.AI

papers.abstract

Comprendre le monde physique est essentiel pour les agents d'IA généralistes. Cependant, il reste incertain si les modèles de perception visuelle les plus avancés (par exemple, les grands modèles de langage visuel ou MLV) peuvent raisonner sur les propriétés physiques de manière quantitative. Les évaluations existantes sont principalement basées sur des questions-réponses visuelles (VQA) et qualitatives, offrant un aperçu limité de la capacité de ces modèles à inférer les quantités cinématiques d'objets en mouvement à partir d'observations vidéo. Pour remédier à cela, nous présentons QuantiPhy, le premier benchmark conçu pour mesurer quantitativement la capacité de raisonnement physique d'un MLV. Comptant plus de 3 300 instances vidéo-texte avec une vérité terrain numérique, QuantiPhy évalue la performance d'un MLV à estimer la taille, la vitesse et l'accélération d'un objet à un instant donné, en utilisant l'une de ces propriétés comme information préalable en entrée. Le benchmark standardise les invites et le système de notation pour évaluer la précision numérique, permettant des comparaisons équitables entre les modèles. Nos expériences sur les MLV les plus performants révèlent un écart constant entre leur plausibilité qualitative et leur exactitude numérique réelle. Nous fournissons en outre une analyse approfondie de facteurs clés tels que le bruit de fond, les informations préalables contrefactuelles et l'utilisation stratégique des invites, et constatons que les MLV de pointe s'appuient fortement sur des connaissances pré-entraînées du monde plutôt que d'utiliser fidèlement les entrées visuelles et textuelles fournies comme références lors du raisonnement quantitatif sur les propriétés cinématiques. QuantiPhy offre le premier banc d'essai rigoureux et évolutif pour faire passer les MLV au-delà de la simple plausibilité verbale vers une compréhension physique ancrée numériquement.
English
Understanding the physical world is essential for generalist AI agents. However, it remains unclear whether state-of-the-art vision perception models (e.g., large VLMs) can reason physical properties quantitatively. Existing evaluations are predominantly VQA-based and qualitative, offering limited insight into whether these models can infer the kinematic quantities of moving objects from video observations. To address this, we present QuantiPhy, the first benchmark designed to quantitatively measure a VLM's physical reasoning ability. Comprising more than 3.3K video-text instances with numerical ground truth, QuantiPhy evaluates a VLM's performance on estimating an object's size, velocity, and acceleration at a given timestamp, using one of these properties as an input prior. The benchmark standardizes prompts and scoring to assess numerical accuracy, enabling fair comparisons across models. Our experiments on state-of-the-art VLMs reveal a consistent gap between their qualitative plausibility and actual numerical correctness. We further provide an in-depth analysis of key factors like background noise, counterfactual priors, and strategic prompting and find that state-of-the-art VLMs lean heavily on pre-trained world knowledge rather than faithfully using the provided visual and textual inputs as references when reasoning kinematic properties quantitatively. QuantiPhy offers the first rigorous, scalable testbed to move VLMs beyond mere verbal plausibility toward a numerically grounded physical understanding.
PDF21December 25, 2025