QuantiPhy: Um Benchmark Quantitativo para Avaliar as Capacidades de Raciocínio Físico em Modelos de Visão e Linguagem

Resumo

Compreender o mundo físico é essencial para agentes de IA generalistas. No entanto, permanece incerto se os modelos de percepção visual mais avançados (por exemplo, grandes VLMs) conseguem raciocinar sobre propriedades físicas de forma quantitativa. As avaliações existentes são predominantemente baseadas em VQA e qualitativas, oferecendo uma visão limitada sobre se esses modelos podem inferir quantidades cinemáticas de objetos em movimento a partir de observações em vídeo. Para resolver isso, apresentamos o QuantiPhy, o primeiro benchmark projetado para medir quantitativamente a capacidade de raciocínio físico de um VLM. Composto por mais de 3,3 mil instâncias vídeo-texto com valores de referência numéricos, o QuantiPhy avalia o desempenho de um VLM na estimativa do tamanho, velocidade e aceleração de um objeto em um determinado momento, usando uma dessas propriedades como informação prévia de entrada. O benchmark padroniza os prompts e a pontuação para avaliar a precisão numérica, permitindo comparações justas entre modelos. Nossos experimentos com VLMs de última geração revelam uma lacuna consistente entre sua plausibilidade qualitativa e a correção numérica real. Aprofundamos ainda a análise de fatores-chave como ruído de fundo, informações prévia contra-factuais e estratégias de prompting, e descobrimos que os VLMs mais avançados dependem fortemente do conhecimento mundial pré-treinado, em vez de usar fielmente as entradas visuais e textuais fornecidas como referências ao raciocinar quantitativamente sobre propriedades cinemáticas. O QuantiPhy oferece o primeiro teste rigoroso e escalável para levar os VLMs além da mera plausibilidade verbal em direção a uma compreensão física numericamente fundamentada.

English

Understanding the physical world is essential for generalist AI agents. However, it remains unclear whether state-of-the-art vision perception models (e.g., large VLMs) can reason physical properties quantitatively. Existing evaluations are predominantly VQA-based and qualitative, offering limited insight into whether these models can infer the kinematic quantities of moving objects from video observations. To address this, we present QuantiPhy, the first benchmark designed to quantitatively measure a VLM's physical reasoning ability. Comprising more than 3.3K video-text instances with numerical ground truth, QuantiPhy evaluates a VLM's performance on estimating an object's size, velocity, and acceleration at a given timestamp, using one of these properties as an input prior. The benchmark standardizes prompts and scoring to assess numerical accuracy, enabling fair comparisons across models. Our experiments on state-of-the-art VLMs reveal a consistent gap between their qualitative plausibility and actual numerical correctness. We further provide an in-depth analysis of key factors like background noise, counterfactual priors, and strategic prompting and find that state-of-the-art VLMs lean heavily on pre-trained world knowledge rather than faithfully using the provided visual and textual inputs as references when reasoning kinematic properties quantitatively. QuantiPhy offers the first rigorous, scalable testbed to move VLMs beyond mere verbal plausibility toward a numerically grounded physical understanding.

QuantiPhy: Um Benchmark Quantitativo para Avaliar as Capacidades de Raciocínio Físico em Modelos de Visão e Linguagem

QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

Resumo

Support