QuantiPhy: Eine quantitative Benchmark zur Bewertung der physikalischen Denkfähigkeiten von Bild-Sprach-Modellen
QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models
December 22, 2025
papers.authors: Li Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli
cs.AI
papers.abstract
Das Verständnis der physischen Welt ist entscheidend für allgemeine KI-Agenten. Es bleibt jedoch unklar, ob moderne Bildverarbeitungsmodelle (z.B. große VLMs) physikalische Eigenschaften quantitativ erfassen können. Bisherige Bewertungen basieren überwiegend auf VQA und sind qualitativ, sodass sie nur begrenzt Aufschluss darüber geben, ob diese Modelle kinematische Größen bewegter Objekte aus Videoaufnahmen ableiten können. Um dies zu adressieren, stellen wir QuantiPhy vor, den ersten Benchmark, der entwickelt wurde, um das physikalische Reasoning-Vermögen von VLMs quantitativ zu messen. QuantiPhy umfasst mehr als 3.300 Video-Text-Instanzen mit numerischen Ground-Truth-Daten und bewertet die Leistung eines VLMs bei der Schätzung von Größe, Geschwindigkeit und Beschleunigung eines Objekts zu einem bestimmten Zeitpunkt, wobei eine dieser Eigenschaften als Eingabe-Prior verwendet wird. Der Benchmark standardisiert Prompts und Bewertungskriterien, um die numerische Genauigkeit zu beurteilen und faire Vergleiche zwischen Modellen zu ermöglichen. Unsere Experimente mit modernsten VLMs zeigen eine konsistente Diskrepanz zwischen ihrer qualitativen Plausibilität und der tatsächlichen numerischen Korrektheit. Wir liefern ferner eine detaillierte Analyse von Schlüsselfaktoren wie Hintergrundrauschen, kontrafaktischen Priors und strategischem Prompting und stellen fest, dass state-of-the-art VLMs stark auf vortrainiertes Weltwissen zurückgreifen, anstatt die bereitgestellten visuellen und textuellen Eingaben als Referenz für die quantitative Ableitung kinematischer Eigenschaften zu nutzen. QuantiPhy bietet die erste rigorose, skalierbare Testumgebung, um VLMs über bloße verbale Plausibilität hinaus hin zu einem numerisch fundierten physikalischen Verständnis zu führen.
English
Understanding the physical world is essential for generalist AI agents. However, it remains unclear whether state-of-the-art vision perception models (e.g., large VLMs) can reason physical properties quantitatively. Existing evaluations are predominantly VQA-based and qualitative, offering limited insight into whether these models can infer the kinematic quantities of moving objects from video observations. To address this, we present QuantiPhy, the first benchmark designed to quantitatively measure a VLM's physical reasoning ability. Comprising more than 3.3K video-text instances with numerical ground truth, QuantiPhy evaluates a VLM's performance on estimating an object's size, velocity, and acceleration at a given timestamp, using one of these properties as an input prior. The benchmark standardizes prompts and scoring to assess numerical accuracy, enabling fair comparisons across models. Our experiments on state-of-the-art VLMs reveal a consistent gap between their qualitative plausibility and actual numerical correctness. We further provide an in-depth analysis of key factors like background noise, counterfactual priors, and strategic prompting and find that state-of-the-art VLMs lean heavily on pre-trained world knowledge rather than faithfully using the provided visual and textual inputs as references when reasoning kinematic properties quantitatively. QuantiPhy offers the first rigorous, scalable testbed to move VLMs beyond mere verbal plausibility toward a numerically grounded physical understanding.