QuantiPhy: Un Punto de Referencia Cuantitativo que Evalúa las Capacidades de Razonamiento Físico de los Modelos de Visión y Lenguaje
QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models
December 22, 2025
Autores: Li Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli
cs.AI
Resumen
Comprender el mundo físico es esencial para los agentes de IA generalistas. Sin embargo, sigue sin estar claro si los modelos de percepción visual más avanzados (por ejemplo, los grandes modelos de lenguaje y visión, o VLMs) pueden razonar sobre propiedades físicas de forma cuantitativa. Las evaluaciones existentes se basan predominantemente en preguntas y respuestas visuales (VQA) y son cualitativas, ofreciendo una visión limitada sobre si estos modelos pueden inferir cantidades cinemáticas de objetos en movimiento a partir de observaciones en video. Para abordar esto, presentamos QuantiPhy, el primer punto de referencia diseñado para medir cuantitativamente la capacidad de razonamiento físico de un VLM. Compuesto por más de 3.300 instancias de video-texto con valores de verdad numéricos, QuantiPhy evalúa el rendimiento de un VLM en la estimación del tamaño, la velocidad y la aceleración de un objeto en un momento dado, utilizando una de estas propiedades como información previa de entrada. El punto de referencia estandariza las instrucciones y la puntuación para evaluar la precisión numérica, permitiendo comparaciones justas entre modelos. Nuestros experimentos con los VLMs más avanzados revelan una brecha constante entre su plausibilidad cualitativa y su exactitud numérica real. Además, proporcionamos un análisis en profundidad de factores clave como el ruido de fondo, la información previa contrafáctica y las instrucciones estratégicas, y encontramos que los VLMs más avanzados dependen en gran medida del conocimiento del mundo preentrenado en lugar de utilizar fielmente las entradas visuales y textuales proporcionadas como referencia al razonar cuantitativamente sobre propiedades cinemáticas. QuantiPhy ofrece el primer banco de pruebas riguroso y escalable para llevar a los VLMs más allá de la mera plausibilidad verbal hacia una comprensión física cuantitativamente fundamentada.
English
Understanding the physical world is essential for generalist AI agents. However, it remains unclear whether state-of-the-art vision perception models (e.g., large VLMs) can reason physical properties quantitatively. Existing evaluations are predominantly VQA-based and qualitative, offering limited insight into whether these models can infer the kinematic quantities of moving objects from video observations. To address this, we present QuantiPhy, the first benchmark designed to quantitatively measure a VLM's physical reasoning ability. Comprising more than 3.3K video-text instances with numerical ground truth, QuantiPhy evaluates a VLM's performance on estimating an object's size, velocity, and acceleration at a given timestamp, using one of these properties as an input prior. The benchmark standardizes prompts and scoring to assess numerical accuracy, enabling fair comparisons across models. Our experiments on state-of-the-art VLMs reveal a consistent gap between their qualitative plausibility and actual numerical correctness. We further provide an in-depth analysis of key factors like background noise, counterfactual priors, and strategic prompting and find that state-of-the-art VLMs lean heavily on pre-trained world knowledge rather than faithfully using the provided visual and textual inputs as references when reasoning kinematic properties quantitatively. QuantiPhy offers the first rigorous, scalable testbed to move VLMs beyond mere verbal plausibility toward a numerically grounded physical understanding.